Hadoop/Spark セルフサービス系の事例まとめ

Hadoop/Spark セルフサービス系の事例
まとめ @ Hadoop Summit SJC 2016
Yuta Imai
Solutions Engineer, Hortonworks
© Hortonworks Inc. 2011 – 2015. All Rights Reserved

2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
自己紹介
Ã  今井雄太
Ã  Solutions Engineer(セールスエンジニアのようなもの）
Ã  広告配信サーバーのレポート作成のためにMapReduce(perl +
streaming!)を使ったのがHadoopとの出会い。
Ã  その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3
などのビッグデータなプロダクトを主に担当。そんなつながりで
Hortonworksに⼊社してHadoopをやっています。
Ã  @imai_factory

今⽇のテーマ：セルフサービス

テーマ：セルフサービス
Ã  Day3 Keynote
–  Cloud Storage、Hortonworks Cloud、LLAPの話
Ã  Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on
Hive
–  Yahoo! Inc.のデータマートの話
Ã  On-Demand HDP Clusters Using Cloudbreak and Ambari
–  Symantecのデータマート（など）の話
Ã  Extreme Analytics @ eBay
–  eBayのデータマートの話
Ã  Show me the Money! Cost & Resource Tracking for Hadoop and Storm
–  Yahoo! Inc.のHadoopプラットフォームの料⾦配賦の話

Day 3 Keynote

Day 3 Keynote: Cloud Storage as a Data Lake
Ã  S3などのクラウドストレージは耐久性や運⽤
の容易さ、拡張性、マルチテナンシーなどの
⾯で優れている。
Ã  コンピュートとストレージを分離し、それぞ
れ別々にスケールをさせることができるよう
になる。
Ã  ⼀⽅、Hadoopの特徴のひとつであるデータ
ローカリティとは相反する⾯がある。
Ã  Hadoopコミュニティとして、ここにeﬀortを
あてていく必要があるという話。

Day 3 Keynote: LLAP for cache layer
Ã  LLAP: Live Long And Process
Ã  Hiveのクエリフラグメントを実⾏するための
常駐デーモン
Ã  IOが専⽤スレッドに切り離されておりここに
キャッシュを持っている。
Ã  キャッシュはORCに最適化されている。
Ã  ストレージから取り出したデータを
「Column x Row Group」単位でキャッシュ。
Ã  これを利⽤すればある程度、遠いストレージ
によるディスアドバンテージをカバーできる。
Ã  いまのところ単純なFIFO。複数デーモン間で
の協調機構などはない。
Node
LLAP Process
Cache
Query Fragment
HDFS/Cloud Storage
Query Fragment

Faster, Faster, Faster:
The True Story of a Mobile Analytics Data Mart on Hive

Ã  ⽶ヤフーのHiveの⾼速化やチューニングに関しての努⼒が語られた。
Ã  しゃべっていたのはHadoopをプラットフォームとして提供するチームのひとと
思われる。
Ã  パーティションの切り⽅とかReduce side Vectorizationの話、Joinの最適化、
Sketchの利⽤、hcatalogの⾼速化の努⼒などなど・・・
Ã  その中で、ユーザーへの提供インターフェイスとして「カスタムデータマー
ト」という話が語られた。
Ã  プラットフォームチームはデータと、データマートをそれぞれサービスとして
提供する。

データマート
Hour
ETL
Event
Data
Daily
Rollup
Aggregate
ETL
Data
Aggregate
Druid HDFS
User
Interface
1x 24x ?x
Generalized ETL
Data as a Service

On-Demand HDP Clusters Using Cloudbreak and Ambari

Ã  SymantecのHadoopプラットフォームチームによるHadoopセルフサービス化
の取り組みの話
Ã  SSA(Self Service Analytics)というプロジェクト名でHadoopクラスタのセル
フサービス化をやっている
Ã  Symantec社内にはたくさんのデータ分析チーム、もしくはデータ分析をしたい
ひとたちがいる。しかしそれぞれがやりたいことは全然異なっており、特定の
共通機能でカバーするのは難しい。
Ã  それぞれの要望をすべてプラットフォームチームで個別対応するのも⾮現実的。
Ã  ということでセルフサービス化へ。

Ã  最初は社内のOpenStackと、AmbariのBlueprint
を使って実装。
Ã  ユーザーはSSAにログインして、ほしいクラスタ
の規模や機能を決めてデプロイボタンを押す。
Ã  そうするとOpenStack上にクラスタが⽴ち上がっ
て、Blueprintによって、必要なコンポーネントが
インストールされたHDPクラスタが構築される。
Ã  ユーザーが使いたい様々なアプリケーションを管
理するためのAmbariのカスタムサービスを利⽤
Ã  現在、CloudBreakを使ってAWS上への移植の努
⼒中。

Ã  出来上がったクラスタに対してのData Feedもサービス化されている。

Extreme Analytics @ eBay

Ã  eBayのプラットフォームチームによるセフルサービス化の話。
Ã  Governed Self Service Analytics
Ã  300⼈以上のデータ分析者、5000⼈以上のユーザー
Customer Product Transaction Behavior
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart

Ã  Virtual DataMart
–  前の2者と違い、誰かがつくったDataMartは他のひとも利⽤できる
–  そのために・・・
Ã  Data Assert Certiﬁcation
–  信頼の置けるViewなのか？誰が保証しているのか？いつ作られたものなのか？
Ã  Business Glossary
–  Viewの作られ⽅やロジック、その他属性などについての管理されたドキュメント
Ã  Well Managed
–  これは使ってもOKなものなのか？データの更新頻度や品質。

Ã  Virtual DataMartとData Quality Firewall
Customer Product Transaction Behavior
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
DataQualityFirewall
1. 欲しいデータを探す
2. なければつくる
3. Virtual DataMartをつくるために提供されているData as a Service
4. 必要な情報を登録

Show me the Money!
Cost & Resource Tracking for Hadoop and Storm

Show me the Money!
Ã  ⽶ヤフーでは社内Hadoopユーザーのリソース利⽤を通貨の形で可視化している
という話。実際にお⾦のやり取りをしているかどうかは不明。この取組は2015
年から始まった。
Ã  Web UIでUsageが確認できるようになっている
Ã  Resource Usage = amount allocated x time allocated
–  One 2GB mapper running for 5 hours = 10 GB-Hour
–  Five 2GB mappers running for 1 hour = 10 GB-Hour

Show me the Money!
Ã  クラスタの原価(TCO)に含まれるもの
–  Cluster & Network Hardware
–  R&D HC
–  Power, Space, Labor support and facility management
–  Acquisition/Install
–  Operations engineering
–  Network bandwidth
Ã  これらをコア数、RAM、ストレージ、Namespace(?)、ネットワークなどの品
⽬に分けてユーザーの利⽤量に応じて賦課
Ã  例えばRAMなら Resource Usage = amount allocated x time allocated
–  One 2GB mapper running for 5 hours = 10 GB-Hour
–  Five 2GB mappers running for 1 hour = 10 GB-Hour

Show me the Money! – Results!
Ã  当初の想定よりもリソースを使いまくっているプロジェクトの発⾒
Ã  実際に必要なリソースよりも⼤きく上回る量を要求するプロジェクトの発⾒
Ã  プロジェクトメンバーも気づいていなかったリソース利⽤の発⾒
Ã  ゾンビプロジェクトの発⾒
Ã  結果としてリソース利⽤を効率化するという概念がみんなの頭に叩きこまれた

まとめ

まとめ
Ã  いろんなユースケースをひとつのHadoopクラスタに載せようとすると、ユース
ケースごとに異なる下記の条件を管理するのがとてもむずかしくなる
–  アプリケーションの種類やバージョン
–  負荷特性
–  必要とされるキャパシティ
–  セキュリティ要件
–  その他もろもろ
Ã  これらの問題を解決するためのひとつのアプローチとして以下の様なアプロー
チが取られ始めている
–  データとコンピュートを分離
–  データと、コンピュートのプロビジョニングをサービスとして提供
–  ユーザーはこれらをセルフサービスで利⽤する

Hadoop/Spark セルフサービス系の事例まとめ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Hadoop/Spark セルフサービス系の事例まとめ

Similar to Hadoop/Spark セルフサービス系の事例まとめ (20)

More from Yuta Imai

More from Yuta Imai (14)

Recently uploaded

Recently uploaded (15)

Hadoop/Spark セルフサービス系の事例まとめ