SlideShare a Scribd company logo
Hadoop/Spark セルフサービス系の事例
まとめ @ Hadoop Summit SJC 2016
Yuta Imai
Solutions Engineer, Hortonworks
©	Hortonworks	Inc.	2011	–	2015.	All	Rights	Reserved
2	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
自己紹介
Ã  今井 雄太
Ã  Solutions Engineer(セールスエンジニアのようなもの)
Ã  広告配信サーバーのレポート作成のためにMapReduce(perl +
streaming!)を使ったのがHadoopとの出会い。
Ã  その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3
などのビッグデータなプロダクトを主に担当。そんなつながりで
Hortonworksに⼊社してHadoopをやっています。
Ã  @imai_factory
3	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
今⽇のテーマ:セルフサービス
4	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
テーマ:セルフサービス
Ã  Day3 Keynote
–  Cloud Storage、Hortonworks Cloud、LLAPの話
Ã  Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on
Hive
–  Yahoo! Inc.のデータマートの話
Ã  On-Demand HDP Clusters Using Cloudbreak and Ambari
–  Symantecのデータマート(など)の話
Ã  Extreme Analytics @ eBay
–  eBayのデータマートの話
Ã  Show me the Money! Cost & Resource Tracking for Hadoop and Storm
–  Yahoo! Inc.のHadoopプラットフォームの料⾦配賦の話
5	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote
6	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote: Cloud Storage as a Data Lake
Ã  S3などのクラウドストレージは耐久性や運⽤
の容易さ、拡張性、マルチテナンシーなどの
⾯で優れている。
Ã  コンピュートとストレージを分離し、それぞ
れ別々にスケールをさせることができるよう
になる。
Ã  ⼀⽅、Hadoopの特徴のひとつであるデータ
ローカリティとは相反する⾯がある。
Ã  Hadoopコミュニティとして、ここにeffortを
あてていく必要があるという話。
7	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote: LLAP for cache layer
Ã  LLAP: Live Long And Process
Ã  Hiveのクエリフラグメントを実⾏するための
常駐デーモン
Ã  IOが専⽤スレッドに切り離されておりここに
キャッシュを持っている。
Ã  キャッシュはORCに最適化されている。
Ã  ストレージから取り出したデータを
「Column x Row Group」単位でキャッシュ。
Ã  これを利⽤すればある程度、遠いストレージ
によるディスアドバンテージをカバーできる。
Ã  いまのところ単純なFIFO。複数デーモン間で
の協調機構などはない。
Node
LLAP Process
Cache
Query Fragment
HDFS/Cloud Storage
Query Fragment
8	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data Mart on Hive
9	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data Mart on Hive	
Ã  ⽶ヤフーのHiveの⾼速化やチューニングに関しての努⼒が語られた。
Ã  しゃべっていたのはHadoopをプラットフォームとして提供するチームのひとと
思われる。
Ã  パーティションの切り⽅とかReduce side Vectorizationの話、Joinの最適化、
Sketchの利⽤、hcatalogの⾼速化の努⼒などなど・・・
Ã  その中で、ユーザーへの提供インターフェイスとして「カスタムデータマー
ト」という話が語られた。
Ã  プラットフォームチームはデータと、データマートをそれぞれサービスとして
提供する。
10	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
データマート
Hour
ETL
Event
Data
Daily
Rollup
Aggregate
ETL
Data
Aggregate
Druid HDFS
User
Interface
1x 24x ?x
Generalized ETL
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data Mart on Hive	
Data as a Service
11	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari
12	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  SymantecのHadoopプラットフォームチームによるHadoopセルフサービス化
の取り組みの話
Ã  SSA(Self Service Analytics)というプロジェクト名でHadoopクラスタのセル
フサービス化をやっている
Ã  Symantec社内にはたくさんのデータ分析チーム、もしくはデータ分析をしたい
ひとたちがいる。しかしそれぞれがやりたいことは全然異なっており、特定の
共通機能でカバーするのは難しい。
Ã  それぞれの要望をすべてプラットフォームチームで個別対応するのも⾮現実的。
Ã  ということでセルフサービス化へ。
13	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  最初は社内のOpenStackと、AmbariのBlueprint
を使って実装。
Ã  ユーザーはSSAにログインして、ほしいクラスタ
の規模や機能を決めてデプロイボタンを押す。
Ã  そうするとOpenStack上にクラスタが⽴ち上がっ
て、Blueprintによって、必要なコンポーネントが
インストールされたHDPクラスタが構築される。
Ã  ユーザーが使いたい様々なアプリケーションを管
理するためのAmbariのカスタムサービスを利⽤
Ã  現在、CloudBreakを使ってAWS上への移植の努
⼒中。
14	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  出来上がったクラスタに対してのData Feedもサービス化されている。
15	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
16	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  eBayのプラットフォームチームによるセフルサービス化の話。
Ã  Governed Self Service Analytics
Ã  300⼈以上のデータ分析者、5000⼈以上のユーザー
Customer Product Transaction Behavior
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
17	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  Virtual DataMart
–  前の2者と違い、誰かがつくったDataMartは他のひとも利⽤できる
–  そのために・・・
Ã  Data Assert Certification
–  信頼の置けるViewなのか?誰が保証しているのか?いつ作られたものなのか?
Ã  Business Glossary
–  Viewの作られ⽅やロジック、その他属性などについての管理されたドキュメント
Ã  Well Managed
–  これは使ってもOKなものなのか?データの更新頻度や品質。
18	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  Virtual DataMartとData Quality Firewall
Customer Product Transaction Behavior
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
DataQualityFirewall
1. 欲しいデータを探す
2. なければつくる
3. Virtual DataMartをつくるために提供されているData as a Service
4. 必要な情報を登録
19	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Cost & Resource Tracking for Hadoop and Storm
20	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Ã  ⽶ヤフーでは社内Hadoopユーザーのリソース利⽤を通貨の形で可視化している
という話。実際にお⾦のやり取りをしているかどうかは不明。この取組は2015
年から始まった。
Ã  Web UIでUsageが確認できるようになっている
Ã  Resource Usage = amount allocated x time allocated
–  One 2GB mapper running for 5 hours = 10 GB-Hour
–  Five 2GB mappers running for 1 hour = 10 GB-Hour
21	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Ã  クラスタの原価(TCO)に含まれるもの
–  Cluster & Network Hardware
–  R&D HC
–  Power, Space, Labor support and facility management
–  Acquisition/Install
–  Operations engineering
–  Network bandwidth
Ã  これらをコア数、RAM、ストレージ、Namespace(?)、ネットワークなどの品
⽬に分けてユーザーの利⽤量に応じて賦課
Ã  例えばRAMなら Resource Usage = amount allocated x time allocated
–  One 2GB mapper running for 5 hours = 10 GB-Hour
–  Five 2GB mappers running for 1 hour = 10 GB-Hour
22	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money! – Results!
Ã  当初の想定よりもリソースを使いまくっているプロジェクトの発⾒
Ã  実際に必要なリソースよりも⼤きく上回る量を要求するプロジェクトの発⾒
Ã  プロジェクトメンバーも気づいていなかったリソース利⽤の発⾒
Ã  ゾンビプロジェクトの発⾒
Ã  結果としてリソース利⽤を効率化するという概念がみんなの頭に叩きこまれた
23	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
まとめ
24	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
まとめ
Ã  いろんなユースケースをひとつのHadoopクラスタに載せようとすると、ユース
ケースごとに異なる下記の条件を管理するのがとてもむずかしくなる
–  アプリケーションの種類やバージョン
–  負荷特性
–  必要とされるキャパシティ
–  セキュリティ要件
–  その他もろもろ
Ã  これらの問題を解決するためのひとつのアプローチとして以下の様なアプロー
チが取られ始めている
–  データとコンピュートを分離
–  データと、コンピュートのプロビジョニングをサービスとして提供
–  ユーザーはこれらをセルフサービスで利⽤する

More Related Content

What's hot

Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-public
Yifeng Jiang
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
Yifeng Jiang
 
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for EveryoneApache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Kimihiko Kitase
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on Hadoop
Yifeng Jiang
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
Comparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBaseComparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBase
DataWorks Summit/Hadoop Summit
 
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクトApache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
 
Case Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and HadoopCase Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and Hadoop
DataWorks Summit/Hadoop Summit
 
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on HadoopThe truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
DataWorks Summit/Hadoop Summit
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
HDP Security Overview
HDP Security OverviewHDP Security Overview
HDP Security Overview
Yifeng Jiang
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
 
Hadoopとは
HadoopとはHadoopとは
Hadoopとは
Hirokazu Yatsunami
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
 
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicHive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
 

What's hot (20)

Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-public
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for EveryoneApache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for Everyone
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on Hadoop
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
Comparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBaseComparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBase
 
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクトApache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
 
Case Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and HadoopCase Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and Hadoop
 
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on HadoopThe truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
HDP Security Overview
HDP Security OverviewHDP Security Overview
HDP Security Overview
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
 
Hadoopとは
HadoopとはHadoopとは
Hadoopとは
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
 
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicHive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
 

Similar to Hadoop/Spark セルフサービス系の事例まとめ

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれません
Mana Matsudate
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
 
20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearning20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearningTakumi Yoshida
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
Kimihiko Kitase
 
Azure <3 Openness
Azure <3 OpennessAzure <3 Openness
Azure <3 Openness
Keiji Kamebuchi
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
 
Hadoop Summit 2016 San Jose レポート
Hadoop Summit 2016  San Jose レポートHadoop Summit 2016  San Jose レポート
Hadoop Summit 2016 San Jose レポート
Kimihiko Kitase
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
Cloudera Japan
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Insight Technology, Inc.
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
伊藤 孝
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
Insight Technology, Inc.
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
Recruit Technologies
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
Joutaro Ooura
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
 
BIG DATA サービス と ツール
BIG DATA サービス と ツールBIG DATA サービス と ツール
BIG DATA サービス と ツール
Ngoc Dao
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
Insight Technology, Inc.
 
HDP ハンズオンセミナー
HDP ハンズオンセミナーHDP ハンズオンセミナー
HDP ハンズオンセミナー
Toshihiro Suzuki
 
Datadog monitoring with HashiCorp
Datadog monitoring with HashiCorpDatadog monitoring with HashiCorp
Datadog monitoring with HashiCorp
Masatomo Ito
 

Similar to Hadoop/Spark セルフサービス系の事例まとめ (20)

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれません
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearning20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearning
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
 
Azure <3 Openness
Azure <3 OpennessAzure <3 Openness
Azure <3 Openness
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
 
Hadoop Summit 2016 San Jose レポート
Hadoop Summit 2016  San Jose レポートHadoop Summit 2016  San Jose レポート
Hadoop Summit 2016 San Jose レポート
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
BIG DATA サービス と ツール
BIG DATA サービス と ツールBIG DATA サービス と ツール
BIG DATA サービス と ツール
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
HDP ハンズオンセミナー
HDP ハンズオンセミナーHDP ハンズオンセミナー
HDP ハンズオンセミナー
 
Datadog monitoring with HashiCorp
Datadog monitoring with HashiCorpDatadog monitoring with HashiCorp
Datadog monitoring with HashiCorp
 

More from Yuta Imai

Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no InternetNode-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Yuta Imai
 
HDP2.5 Updates
HDP2.5 UpdatesHDP2.5 Updates
HDP2.5 Updates
Yuta Imai
 
Hadoop in adtech
Hadoop in adtechHadoop in adtech
Hadoop in adtech
Yuta Imai
 
Dynamic Resource Allocation in Apache Spark
Dynamic Resource Allocation in Apache SparkDynamic Resource Allocation in Apache Spark
Dynamic Resource Allocation in Apache Spark
Yuta Imai
 
Benchmark and Metrics
Benchmark and MetricsBenchmark and Metrics
Benchmark and Metrics
Yuta Imai
 
Hadoop and Kerberos
Hadoop and KerberosHadoop and Kerberos
Hadoop and Kerberos
Yuta Imai
 
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon KinesisSpark Streaming + Amazon Kinesis
Spark Streaming + Amazon Kinesis
Yuta Imai
 
オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫
Yuta Imai
 
Amazon Machine Learning
Amazon Machine LearningAmazon Machine Learning
Amazon Machine Learning
Yuta Imai
 
Global Gaming On AWS
Global Gaming On AWSGlobal Gaming On AWS
Global Gaming On AWS
Yuta Imai
 
Digital marketing on AWS
Digital marketing on AWSDigital marketing on AWS
Digital marketing on AWS
Yuta Imai
 
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Yuta Imai
 
クラウドネイティブなアーキテクチャでサクサク解析
クラウドネイティブなアーキテクチャでサクサク解析クラウドネイティブなアーキテクチャでサクサク解析
クラウドネイティブなアーキテクチャでサクサク解析
Yuta Imai
 
CloudFront経由でのCORS利用
CloudFront経由でのCORS利用CloudFront経由でのCORS利用
CloudFront経由でのCORS利用
Yuta Imai
 

More from Yuta Imai (14)

Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no InternetNode-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
 
HDP2.5 Updates
HDP2.5 UpdatesHDP2.5 Updates
HDP2.5 Updates
 
Hadoop in adtech
Hadoop in adtechHadoop in adtech
Hadoop in adtech
 
Dynamic Resource Allocation in Apache Spark
Dynamic Resource Allocation in Apache SparkDynamic Resource Allocation in Apache Spark
Dynamic Resource Allocation in Apache Spark
 
Benchmark and Metrics
Benchmark and MetricsBenchmark and Metrics
Benchmark and Metrics
 
Hadoop and Kerberos
Hadoop and KerberosHadoop and Kerberos
Hadoop and Kerberos
 
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon KinesisSpark Streaming + Amazon Kinesis
Spark Streaming + Amazon Kinesis
 
オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫
 
Amazon Machine Learning
Amazon Machine LearningAmazon Machine Learning
Amazon Machine Learning
 
Global Gaming On AWS
Global Gaming On AWSGlobal Gaming On AWS
Global Gaming On AWS
 
Digital marketing on AWS
Digital marketing on AWSDigital marketing on AWS
Digital marketing on AWS
 
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
 
クラウドネイティブなアーキテクチャでサクサク解析
クラウドネイティブなアーキテクチャでサクサク解析クラウドネイティブなアーキテクチャでサクサク解析
クラウドネイティブなアーキテクチャでサクサク解析
 
CloudFront経由でのCORS利用
CloudFront経由でのCORS利用CloudFront経由でのCORS利用
CloudFront経由でのCORS利用
 

Recently uploaded

FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 

Recently uploaded (15)

FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 

Hadoop/Spark セルフサービス系の事例まとめ

  • 1. Hadoop/Spark セルフサービス系の事例 まとめ @ Hadoop Summit SJC 2016 Yuta Imai Solutions Engineer, Hortonworks © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 2. 2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 自己紹介 Ã  今井 雄太 Ã  Solutions Engineer(セールスエンジニアのようなもの) Ã  広告配信サーバーのレポート作成のためにMapReduce(perl + streaming!)を使ったのがHadoopとの出会い。 Ã  その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3 などのビッグデータなプロダクトを主に担当。そんなつながりで Hortonworksに⼊社してHadoopをやっています。 Ã  @imai_factory
  • 4. 4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved テーマ:セルフサービス Ã  Day3 Keynote –  Cloud Storage、Hortonworks Cloud、LLAPの話 Ã  Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive –  Yahoo! Inc.のデータマートの話 Ã  On-Demand HDP Clusters Using Cloudbreak and Ambari –  Symantecのデータマート(など)の話 Ã  Extreme Analytics @ eBay –  eBayのデータマートの話 Ã  Show me the Money! Cost & Resource Tracking for Hadoop and Storm –  Yahoo! Inc.のHadoopプラットフォームの料⾦配賦の話
  • 6. 6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Day 3 Keynote: Cloud Storage as a Data Lake Ã  S3などのクラウドストレージは耐久性や運⽤ の容易さ、拡張性、マルチテナンシーなどの ⾯で優れている。 Ã  コンピュートとストレージを分離し、それぞ れ別々にスケールをさせることができるよう になる。 Ã  ⼀⽅、Hadoopの特徴のひとつであるデータ ローカリティとは相反する⾯がある。 Ã  Hadoopコミュニティとして、ここにeffortを あてていく必要があるという話。
  • 7. 7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Day 3 Keynote: LLAP for cache layer Ã  LLAP: Live Long And Process Ã  Hiveのクエリフラグメントを実⾏するための 常駐デーモン Ã  IOが専⽤スレッドに切り離されておりここに キャッシュを持っている。 Ã  キャッシュはORCに最適化されている。 Ã  ストレージから取り出したデータを 「Column x Row Group」単位でキャッシュ。 Ã  これを利⽤すればある程度、遠いストレージ によるディスアドバンテージをカバーできる。 Ã  いまのところ単純なFIFO。複数デーモン間で の協調機構などはない。 Node LLAP Process Cache Query Fragment HDFS/Cloud Storage Query Fragment
  • 8. 8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive
  • 9. 9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive Ã  ⽶ヤフーのHiveの⾼速化やチューニングに関しての努⼒が語られた。 Ã  しゃべっていたのはHadoopをプラットフォームとして提供するチームのひとと 思われる。 Ã  パーティションの切り⽅とかReduce side Vectorizationの話、Joinの最適化、 Sketchの利⽤、hcatalogの⾼速化の努⼒などなど・・・ Ã  その中で、ユーザーへの提供インターフェイスとして「カスタムデータマー ト」という話が語られた。 Ã  プラットフォームチームはデータと、データマートをそれぞれサービスとして 提供する。
  • 10. 10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データマート Hour ETL Event Data Daily Rollup Aggregate ETL Data Aggregate Druid HDFS User Interface 1x 24x ?x Generalized ETL Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive Data as a Service
  • 12. 12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  SymantecのHadoopプラットフォームチームによるHadoopセルフサービス化 の取り組みの話 Ã  SSA(Self Service Analytics)というプロジェクト名でHadoopクラスタのセル フサービス化をやっている Ã  Symantec社内にはたくさんのデータ分析チーム、もしくはデータ分析をしたい ひとたちがいる。しかしそれぞれがやりたいことは全然異なっており、特定の 共通機能でカバーするのは難しい。 Ã  それぞれの要望をすべてプラットフォームチームで個別対応するのも⾮現実的。 Ã  ということでセルフサービス化へ。
  • 13. 13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  最初は社内のOpenStackと、AmbariのBlueprint を使って実装。 Ã  ユーザーはSSAにログインして、ほしいクラスタ の規模や機能を決めてデプロイボタンを押す。 Ã  そうするとOpenStack上にクラスタが⽴ち上がっ て、Blueprintによって、必要なコンポーネントが インストールされたHDPクラスタが構築される。 Ã  ユーザーが使いたい様々なアプリケーションを管 理するためのAmbariのカスタムサービスを利⽤ Ã  現在、CloudBreakを使ってAWS上への移植の努 ⼒中。
  • 14. 14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  出来上がったクラスタに対してのData Feedもサービス化されている。
  • 16. 16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  eBayのプラットフォームチームによるセフルサービス化の話。 Ã  Governed Self Service Analytics Ã  300⼈以上のデータ分析者、5000⼈以上のユーザー Customer Product Transaction Behavior Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart
  • 17. 17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  Virtual DataMart –  前の2者と違い、誰かがつくったDataMartは他のひとも利⽤できる –  そのために・・・ Ã  Data Assert Certification –  信頼の置けるViewなのか?誰が保証しているのか?いつ作られたものなのか? Ã  Business Glossary –  Viewの作られ⽅やロジック、その他属性などについての管理されたドキュメント Ã  Well Managed –  これは使ってもOKなものなのか?データの更新頻度や品質。
  • 18. 18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  Virtual DataMartとData Quality Firewall Customer Product Transaction Behavior Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart DataQualityFirewall 1. 欲しいデータを探す 2. なければつくる 3. Virtual DataMartをつくるために提供されているData as a Service 4. 必要な情報を登録
  • 19. 19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Cost & Resource Tracking for Hadoop and Storm
  • 20. 20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Ã  ⽶ヤフーでは社内Hadoopユーザーのリソース利⽤を通貨の形で可視化している という話。実際にお⾦のやり取りをしているかどうかは不明。この取組は2015 年から始まった。 Ã  Web UIでUsageが確認できるようになっている Ã  Resource Usage = amount allocated x time allocated –  One 2GB mapper running for 5 hours = 10 GB-Hour –  Five 2GB mappers running for 1 hour = 10 GB-Hour
  • 21. 21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Ã  クラスタの原価(TCO)に含まれるもの –  Cluster & Network Hardware –  R&D HC –  Power, Space, Labor support and facility management –  Acquisition/Install –  Operations engineering –  Network bandwidth Ã  これらをコア数、RAM、ストレージ、Namespace(?)、ネットワークなどの品 ⽬に分けてユーザーの利⽤量に応じて賦課 Ã  例えばRAMなら Resource Usage = amount allocated x time allocated –  One 2GB mapper running for 5 hours = 10 GB-Hour –  Five 2GB mappers running for 1 hour = 10 GB-Hour
  • 22. 22 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! – Results! Ã  当初の想定よりもリソースを使いまくっているプロジェクトの発⾒ Ã  実際に必要なリソースよりも⼤きく上回る量を要求するプロジェクトの発⾒ Ã  プロジェクトメンバーも気づいていなかったリソース利⽤の発⾒ Ã  ゾンビプロジェクトの発⾒ Ã  結果としてリソース利⽤を効率化するという概念がみんなの頭に叩きこまれた
  • 24. 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved まとめ Ã  いろんなユースケースをひとつのHadoopクラスタに載せようとすると、ユース ケースごとに異なる下記の条件を管理するのがとてもむずかしくなる –  アプリケーションの種類やバージョン –  負荷特性 –  必要とされるキャパシティ –  セキュリティ要件 –  その他もろもろ Ã  これらの問題を解決するためのひとつのアプローチとして以下の様なアプロー チが取られ始めている –  データとコンピュートを分離 –  データと、コンピュートのプロビジョニングをサービスとして提供 –  ユーザーはこれらをセルフサービスで利⽤する