Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Hadoop最新事情と	
Hortonworks	Data	Pla0orm	
Joe	Ooura	&	Yuta	Imai	
2016/4/8	
©	Hortonworks	Inc.	2011	–	2015.	All	Rights	Reserve...
2	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
はじめに	
Ã  質問はQUESTIONSというボタンからお願いします。プレゼンター以外には見えま
せん。	
Ã  TwiGer経由...
3	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
自己紹介
Ã  大浦 譲太郎 	 	 	 	 	 	 	 	TwiGer:@JOOOURA	
Ã  5歳児と8歳児の父	
Ã  サー...
4	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Agenda
Ã  Hortonworks?
Ã  Hadoopやビッグデータを取り巻く最近の事情
Ã  Hortonworks D...
5	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Agenda
Ã  Hortonworks?
Ã  Hadoopやビッグデータを取り巻く最近の事情
Ã  Hortonworks D...
6	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
About Hortonworks
お客様との歩み
•  ~800	社	(2016年2月現在)	
•  152	社は	2015年第三...
7	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Our Model: Drive an Enterprise-focused Roadmap
1.  Innovate	Exis?n...
8	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	Page	8	 ©	Hortonworks	Inc.	2011	–	2015.	All	Rights	Reserved	
100%	O...
9	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Agenda
Ã  Hortonworks?
Ã  Hadoopやビッグデータを取り巻く最近の事情
Ã  Hortonworks D...
10	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
自己紹介
Ã  今井 雄太	 	 	 	 	 	 	 	TwiGer:@imai_factory	
Ã  Soluons	Engi...
11	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
HadoopはもともとMapReduceそのものだった
		
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 °...
12	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
HadoopはもともとMapReduceそのものだった
		
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 °...
13	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
HadoopはもともとMapReduceそのものだった
		
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 °...
14	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
HadoopはもともとMapReduceそのものだった
		
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 °...
15	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hadoopはバッチ処理に使われていた
•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の
様なアーキテ...
16	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hadoopはバッチ処理に使われていた
•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の
様なアーキテ...
17	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
SQL on ビッグデータを⾼速化する試み
Hive(MapReduce)の速度はインタラクティブなクエリには不⼗分だった。
• ...
18	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
SQL on ビッグデータ - クラウドサービスの登場
•  Amazon Redshift
•  Google BigQuery
19	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Apache Sparkの登場
•  UCバークレーのAmplabで開発
•  RDDと呼ばれる分散データセットを処理のコアとした...
20	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Apache Sparkの登場
•  UCバークレーのAmplabで開発
•  RDDと呼ばれる分散データセットを処理のコアとした...
21	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
リアルタイム処理/ストリーム処理のポピュラー化
•  Amazon KinesisやCloud Dataflow、Spark Str...
22	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hadoopや関連ソフトウェアのユースケースの変遷
•  MapReduceアプリケーションを実装してのバッチ処理。⼤きなデータに...
23	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
4ZB
DATAINTERNET
OF
ANYTHING
Page 23 © Hortonworks Inc. 2011 – 20...
24	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
4ZB
DATAINTERNET
OF
ANYTHING
44ZB
DATA
Page 24 © Hortonworks Inc....
25	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
D A T A I N M O T I O N
STORAGE
STORAGE
GROUP 2GROUP 1
GROUP 4GRO...
26	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hadoop⾃体の進化は・・・?
27	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
		
YARN : Data Operating System
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 ...
28	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
		
Others
ISV Engines
YARN : Data Operating System
DATA ACCESS
1	...
29	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
		
Others
ISV Engines
YARN : Data Operating System
DATA ACCESS
1	...
30	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
		
Others
ISV Engines
YARN : Data Operating System
DATA ACCESS
1	...
31	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
•  JobTracker
•  TaskTracker
•  Tasks
Hadoop 1 Architecture
Page ...
32	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
YARN Architecture	
• Cluster Operating System	
• Enable’s Generic...
33	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hadoop2(YARN) - Summary
•  JobTackerという⼤きなボトルネックの解消
•  タスクの実⾏環境のコ...
34	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
HDPが実現する完全にオープンなデータプラットフォーム	
Hortonworks	Data	Pla0orm		
Hortonwor...
35	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Agenda
Ã  Hortonworks?
Ã  Hadoopやビッグデータを取り巻く最近の事情
Ã  Hortonworks ...
36	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm	
Ã  Overview	–	Components	walkthrough	
Ã...
37	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm	
Ã  Overview	–	Components	walkthrough	
Ã...
38	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm		
		
YARN: Data Operating System
(Cluste...
39	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
HDPのバージョン
40	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm	
Ã  Overview	–	Components	walkthrough	
Ã...
41	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Apache Ambari – A cluster manager
42	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Apache Ambari – A cluster manager
Ambari	
Server	
Ambari	
Agent	
...
43	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm	
Ã  Overview	–	Components	walkthrough	
Ã...
44	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
もちろんこれまで通りのHiveも
Web
Web
Web
Hadoop
log
log
log
WebHDFSなど	
Hivese...
45	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
KafkaとSpark Streamingでラムダアーキテクチャも
Web
Web
Web
Hadoop
log
log
log
...
46	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Distributed	Storage:	HDFS	
Many	Workloads:	YARN	
Stream	Processin...
47	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Page	47	
HDFS	
Input	Feed	
Hive	
Storm	
Search	UI(Banana)	
Query	...
48	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm	
Ã  Overview	–	Components	walkthrough	
Ã...
49	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
		
Others
ISV Engines
YARN : Data Operating System
DATA ACCESS
1	...
50	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
In	Hortonworks	Data	Pla0orm:	
Administra?on	
Central	management	&...
51	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Typical Access Control Flow - SQL
Page	51 	©	Hortonworks	Inc.	201...
52	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
	
	
	
	
HDFS	
Typical Flow – SQL Access through Beeline client
	
...
53	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
	
	
	
	
HDFS	
Typical Flow – Authenticate through Kerberos or LDA...
54	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
	
	
	
	
HDFS	
Typical Flow – Add Authorization through Ranger
	
	...
55	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
	
	
	
	
HDFS	
Typical Flow – Firewall, Route through Knox Gateway...
56	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
	
	
	
	
HDFS	
Typical Flow – Add Wire and File Encryption
	
	
	
H...
57	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm	
Ã  Overview	–	Components	walkthrough	
Ã...
58	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Cloudbreak
Ã  SequenceIQが開発したオープンソースのクラウド向けHadoopデプロイツール
BI	/	Ana...
59	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Page	59	
•  クラスタを容易にデプロイするための
洗練されたUIやAPI
•  複数のクラスタの管理も可能
•  クラウ...
60	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Cloudbreak	
AWS	
Page	60	
Ambari	Blueprint	
AWS	IAM	Role	
Scaling...
61	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Hortonworks	Data	Pla0orm	
Ã  Overview	–	Components	walkthrough	
Ã...
62	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Getting started with HDP
HDPクラスタを構築するにはAmbari Serverをインストールして、そこか...
63	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Getting started with HDP - Sandbox
Hortonworks Sandboxは構築済みのAmbar...
64	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Agenda
Ã  Hortonworks?
Ã  Hadoopやビッグデータを取り巻く最近の事情
Ã  Hortonworks ...
65	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
次回!
Ã  4/22(⾦) 12:00
Ã  タイトル: HiveもしくはSparkについて(仮)
今⽇のウェビナーはオンデマン...
Upcoming SlideShare
Loading in …5
×

Hadoop最新事情とHortonworks Data Platform

2,504 views

Published on

Hadoopを取り巻く最新事情や事例をまとめてお伝えするとともに、Hortonworks​ Data Platform (HDP) の最新版であるHDP2.4を始めとし、データフローの管理ソフトウェアパッケージであるHortonworks DataFlow (HDF)、クラウド環境へのHDPのデプロイを簡単に行うCloudBreakなど、Hortonworksの提供するソフトウェアをひと通りご紹介いたします。Hadoopについて知りたい方から、普段Hadoopを触っている方にもお楽しみいただけるよう、できるだけ技術的な話を中心に説明いたします。

Published in: Software
  • Login to see the comments

Hadoop最新事情とHortonworks Data Platform

  1. 1. Hadoop最新事情と Hortonworks Data Pla0orm Joe Ooura & Yuta Imai 2016/4/8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  2. 2. 2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved はじめに Ã  質問はQUESTIONSというボタンからお願いします。プレゼンター以外には見えま せん。 Ã  TwiGer経由でもコメント、質問歓迎です。 #hwxjp
  3. 3. 3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 自己紹介 Ã  大浦 譲太郎 TwiGer:@JOOOURA Ã  5歳児と8歳児の父 Ã  サーバ、ストレージのシステム営業を経て2011年に  フラッシュメモリストレージ企業の日本法人立ち上げに 参画。Evangelist、プリセールスSE、広報、営業など一通り をカバー エンタープライズフラッシュの代名詞ともなるioDriveシ リーズを日本国内の通信キャリア、金融機関、WEBサービ ス事業者、アドテク、DC事業者に多数導入。 Ã  2016年1月より、ホートンワークスジャパンの二人目の営 業として参画。 現在はエヴァンジェリスト活動及びエンタープライズ向け セールス、パートナー支援を行なっている。
  4. 4. 4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Agenda Ã  Hortonworks? Ã  Hadoopやビッグデータを取り巻く最近の事情 Ã  Hortonworks Data Platform
  5. 5. 5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Agenda Ã  Hortonworks? Ã  Hadoopやビッグデータを取り巻く最近の事情 Ã  Hortonworks Data Platform
  6. 6. 6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved About Hortonworks お客様との歩み •  ~800 社 (2016年2月現在) •  152 社は 2015年第三四半期で •  2015年10月NASDAQへ上場: HDP The Leader in Connected Data Platforms •  Hortonworks DataFlow for data in moon •  Hortonworks Data Pla]orm for data at rest •  Powering new modern data applicaons Partner for Customer Success •  Leader in open-source community, focused on innovaon to meet enterprise needs •  Unrivaled support subscripons Founded in 2011 Yahoo! で初代の Hadoop 開発を手 がけたアーキテクト、デベロッパー、オ ペレータ 24名によって創立 1000+ E M P L O Y E E S 1500+ E C O S Y S T E M PA R T N E R S
  7. 7. 7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Our Model: Drive an Enterprise-focused Roadmap 1.  Innovate Exis?ng Projects –  Hive/Snger, YARN, HDFS, common ops & security via Ambari & Ranger 2.  Incubate New Projects –  Metron (was OpenSOC), Ranger, Knox, Atlas, Falcon, Ambari, Tez, etc. 3.  Acquire IP & Contribute –  Acquired XASecure and created Apache Ranger; contributed OpenSOC 4.  Partner & Deliver Joint Solu?ons –  Microsom, EMC, HP, SAS, Pivotal, Red Hat, Teradata, etc. 5.  Rally the Ecosystem –  Fast SQL via Snger iniave, Data Governance iniave, ODPi DataAccess (batch,interactive,realtime) Integration& GovernanceOperationsSecurity Apache Project Hortonworks CommiPers Hortonworks PMC HWX % of CommiPers Hadoop 29 24 31% Accumulo 2 2 9% Calcite 6 3 43% HBase 8 5 17% Hive 19 11 38% NiFi 5 5 42% Phoenix 5 5 22% Pig 5 5 24% Slider 12 12 100% Spark 1 0 2% Storm 4 4 19% Tez 15 15 44% Atlas 7 0 35% Falcon 7 5 41% Flume 1 1 4% Ka[a 0 0 0% Sqoop 1 1 4% Ambari 39 30 76% Oozie 4 2 22% Zookeeper 2 1 13% Knox 12 2 80% Ranger 13 11 76% TOTAL 197 144 Source: Apache Somware Foundaon. As of October 5, 2015. A commi'er is someone who has “earned their stripes” within the Apache community and has the ability to commit code directly to their corresponding Apache project source code repository
  8. 8. 8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved 100% Open Source Connected Data Pla0orms Eliminates Risk of vendor lock-in by delivering 100% Apache open source technology Maximizes Community Innovation with hundreds of developers across hundreds of companies Integrates Seamlessly through commiGed co-engineering partnerships with other leading technologies M A X I M U M C O M M U N I T Y I N N O VAT I O N T H E I N N O VAT I O N A D VA N TA G E P R O P R I E T A R Y H A D O O P T I M E INNOVATION O P E N C O M M U N I T Y
  9. 9. 9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Agenda Ã  Hortonworks? Ã  Hadoopやビッグデータを取り巻く最近の事情 Ã  Hortonworks Data Platform
  10. 10. 10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 自己紹介 Ã  今井 雄太 TwiGer:@imai_factory Ã  Soluons Engineer Ã  広告配信サーバーのレポート作成のために MapReduce(perl + streaming!)を使ったのがHadoopとの出 会い。 Ã  その後、AWSにてアドテクやゲームのお客様を担当しつ つ、EMRやS3などのビッグデータなプロダクトを主に担 当。そんなつながりでHortonworksに入社してHadoopを やっています。
  11. 11. 11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HadoopはもともとMapReduceそのものだった 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System DATA MANAGEMENT MapReduce
  12. 12. 12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HadoopはもともとMapReduceそのものだった 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System DATA MANAGEMENT ストレージ(HDFS)とコンピュー ティング(MapReduce)が結合し ていた MapReduce
  13. 13. 13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HadoopはもともとMapReduceそのものだった 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System DATA MANAGEMENT ストレージ(HDFS)とコンピュー ティング(MapReduce)が結合し ていた MapReduce クラスタ全体のリソース管理や、 多数のアプリケーション起動時の 性能的なボトルネックなどいくつ かの課題があった
  14. 14. 14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HadoopはもともとMapReduceそのものだった 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System DATA MANAGEMENT ストレージ(HDFS)とコンピュー ティング(MapReduce)が結合し ていた MapReduce クラスタ全体のリソース管理や、 多数のアプリケーション起動時の 性能的なボトルネックなどいくつ かの課題があった SQL Script Machine Learning アプリケーションはいずれも MapReduceを実⾏エンジンとし て利⽤していた。MapReduceは 遅かった。
  15. 15. 15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hadoopはバッチ処理に使われていた •  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の 様なアーキテクチャが⾮常にメジャーだった。 •  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され ることが多かった。 Web Web Web Hadoop log log log
  16. 16. 16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hadoopはバッチ処理に使われていた •  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の 様なアーキテクチャが⾮常にメジャーだった。 •  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され ることが多かった。 Web Web Web Hadoop log log log ⼤量のデータに対して⼤きな処理をするために利⽤さ れるのがHadoopでありMapReduceだった。
  17. 17. 17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved SQL on ビッグデータを⾼速化する試み Hive(MapReduce)の速度はインタラクティブなクエリには不⼗分だった。 •  Presto •  Impala •  Drill •  Shark(今のSparkSQL)
  18. 18. 18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved SQL on ビッグデータ - クラウドサービスの登場 •  Amazon Redshift •  Google BigQuery
  19. 19. 19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Sparkの登場 •  UCバークレーのAmplabで開発 •  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ 処理フレームワーク •  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、 Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っ ている •  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も 参照するような処理において、MapReduceとくらべて劇的に⾼速
  20. 20. 20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Sparkの登場 •  UCバークレーのAmplabで開発 •  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ 処理フレームワーク •  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、 Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っ ている •  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も 参照するような処理において、MapReduceとくらべて劇的に⾼速 SparkはSQLだけでなく、プログラムによる ビッグデータ処理の⾼速化に⼤きく貢献をし た
  21. 21. 21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved リアルタイム処理/ストリーム処理のポピュラー化 •  Amazon KinesisやCloud Dataflow、Spark Streamingの登場により、スト リーム処理の実装が⾮常に容易になった。 •  これにより、これまでの⼤規模データに対するSQLのようなワークロード以 外にも、スマートメーターのようなIoT的な⽤途、店舗の売上や在庫管理の ための利⽤など、基幹系のシステムにもStormやSpark、Kafkaのようなオー プンソース・ソフトウェアの利⽤が広がった。
  22. 22. 22 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hadoopや関連ソフトウェアのユースケースの変遷 •  MapReduceアプリケーションを実装してのバッチ処理。⼤きなデータに対す る⼤きな計算のために利⽤されていた。 •  Hiveによるレポート・集計系のバッチ処理への導⼊ •  (数年) •  Impala, PrestoなどによるSQL⾼速化によって、よりオンライン/インタラク ティブなクエリに利⽤されるように •  StormやSpark Streamingなどによって逐次処理が容易になり、集計以外の ユースとして在庫や売上管理の領域に •  IoT的な⽂脈では、⾞の⾛⾏データを収集し、保険の査定や割引算定のための 利⽤なども出てくる。
  23. 23. 23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 4ZB DATAINTERNET OF ANYTHING Page 23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 増え続けるデータ量
  24. 24. 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 4ZB DATAINTERNET OF ANYTHING 44ZB DATA Page 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved TOMORROW 増え続けるデータ量
  25. 25. 25 © Hortonworks Inc. 2011 – 2016. All Rights Reserved D A T A I N M O T I O N STORAGE STORAGE GROUP 2GROUP 1 GROUP 4GROUP 3 D A T A A T R E S T INTERNET OF ANYTHING 高まるリアルタイムに対する要求
  26. 26. 26 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hadoop⾃体の進化は・・・?
  27. 27. 27 © Hortonworks Inc. 2011 – 2016. All Rights Reserved YARN : Data Operating System 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System DATA MANAGEMENT YARN – Hadoop2の登場
  28. 28. 28 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Others ISV Engines YARN : Data Operating System DATA ACCESS 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N Batch MapReduce Script Pig Search Solr SQL Hive NoSQL HBase Accumulo Phoenix Stream Storm In-memory Spark TezTez Tez Slider Slider HDFS Hadoop Distributed File System DATA MANAGEMENT YARN – Hadoop2の登場
  29. 29. 29 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Others ISV Engines YARN : Data Operating System DATA ACCESS 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N Batch MapReduce Script Pig Search Solr SQL Hive NoSQL HBase Accumulo Phoenix Stream Storm In-memory Spark TezTez Tez Slider Slider HDFS Hadoop Distributed File System DATA MANAGEMENT YARNの柔軟なAPIによりリソー スが抽象化され、様々なアプリ ケーションが共存できるように なった。 HDFSはマルチテナントな巨⼤な データストアとなった。 YARN – Hadoop2の登場
  30. 30. 30 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Others ISV Engines YARN : Data Operating System DATA ACCESS 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N Batch MapReduce Script Pig Search Solr SQL Hive NoSQL HBase Accumulo Phoenix Stream Storm In-memory Spark TezTez Tez Slider Slider HDFS Hadoop Distributed File System DATA MANAGEMENT YARNの柔軟なAPIによりリソー スが抽象化され、様々なアプリ ケーションが共存できるように なった。 HDFSはマルチテナントな巨⼤な データストアとなった。 YARN これにより、様々な組織や部署の ひとが共⽤Hadoopクラスタを使 うようになった。 Division A Division B
  31. 31. 31 © Hortonworks Inc. 2011 – 2016. All Rights Reserved •  JobTracker •  TaskTracker •  Tasks Hadoop 1 Architecture Page 31
  32. 32. 32 © Hortonworks Inc. 2011 – 2016. All Rights Reserved YARN Architecture • Cluster Operating System • Enable’s Generic Data Processing Tasks with ‘Containers’ • Big Compute (Metal Detectors) for Big Data (Hay Stack) • Resource Manager • Global resource scheduler • Node Manager • Per-machine agent • Manages the life-cycle of container & resource monitoring • Application Master • Per-application master that manages application scheduling and task execution • E.g. MapReduce Application Master • Container • Basic unit of allocation • Fine-grained resource allocation across multiple resource types • (memory, cpu, disk, network, gpu etc.)
  33. 33. 33 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hadoop2(YARN) - Summary •  JobTackerという⼤きなボトルネックの解消 •  タスクの実⾏環境のコンテナ化と、コンテナ払い出しをパブリックAPI化する ことによって、MapReduceだけではなく様々なアプリケーションのOS的な 役割をすることができるようになった。
  34. 34. 34 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HDPが実現する完全にオープンなデータプラットフォーム Hortonworks Data Pla0orm Hortonworks Data Pla0ormはエンタープライズ企業向けHadoopを提供します: セントラライズ・アーキテクチャは、あらゆるデータを、あらゆるアプリケーションでの処理を可能に 完全にオープン •  HDPは企業データプラットフォー ムに求められる全ての要素を統合 します:データストレージ、デー タ・アクセス、ガバナンス、セ キュリティ、オペレーション •  全てのコンポーネントはオープン ソースとして開発され、過酷なテ ストを経て、適正が保証された状 態で、使いやすい形でオープン ソースプラットフォームとして提 供されます。 YARN: Data Operating System (Cluster Resource Management) 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ApachePig ° ° ° ° ° ° ° ° ° ° HDFS (Hadoop Distributed File System) GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS Apache Falcon ApacheHive Cascading ApacheHBase ApacheAccumulo ApacheSolr ApacheSpark ApacheStorm Apache Sqoop Apache Flume Apache Kafka SECURITY Apache Ranger Apache Knox Apache Falcon OPERATIONS Apache Ambari Apache Zookeeper Apache Oozie Delivered Completely in the OPEN
  35. 35. 35 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Agenda Ã  Hortonworks? Ã  Hadoopやビッグデータを取り巻く最近の事情 Ã  Hortonworks Data Platform
  36. 36. 36 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm Ã  Overview – Components walkthrough Ã  Apache Ambari – Cluster Manager Ã  Sample architectures Ã  Security Ã  Cloudbreak Ã  Geung Started
  37. 37. 37 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm Ã  Overview – Components walkthrough Ã  Apache Ambari – Cluster Manager Ã  Sample architectures Ã  Security Ã  Cloudbreak Ã  Geung Started
  38. 38. 38 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm YARN: Data Operating System (Cluster Resource Management) 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ApachePig ° ° ° ° ° ° ° ° ° ° HDFS (Hadoop Distributed File System) GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS Apache Falcon ApacheHive Cascading ApacheHBase ApacheAccumulo ApacheSolr ApacheSpark ApacheStorm Apache Sqoop Apache Flume Apache Kafka SECURITY Apache Ranger Apache Knox Apache Falcon OPERATIONS Apache Ambari Apache Zookeeper Apache Oozie Hortonworks Data Platform
  39. 39. 39 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HDPのバージョン
  40. 40. 40 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm Ã  Overview – Components walkthrough Ã  Apache Ambari – Cluster Manager Ã  Sample architectures Ã  Security Ã  Cloudbreak Ã  Geung Started
  41. 41. 41 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Ambari – A cluster manager
  42. 42. 42 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Ambari – A cluster manager Ambari Server Ambari Agent Metrics Monitors RM NN Ambari Agent Metrics Monitors NM DN Ambari Agent Metrics Monitors NM DN Ã  Ambari Serverが提供するWebUIや REST APIを経由した統⼀的な Hadoopオペレーション WEBUI RESTAPI
  43. 43. 43 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm Ã  Overview – Components walkthrough Ã  Apache Ambari – Cluster Manager Ã  Sample architectures Ã  Security Ã  Cloudbreak Ã  Geung Started
  44. 44. 44 © Hortonworks Inc. 2011 – 2016. All Rights Reserved もちろんこれまで通りのHiveも Web Web Web Hadoop log log log WebHDFSなど Hiveserver2 Hiveの高速化についてはこちら hGp://www.slideshare.net/uprush/hive- presentandfeaturedbtechshowcaseyifeng
  45. 45. 45 © Hortonworks Inc. 2011 – 2016. All Rights Reserved KafkaとSpark Streamingでラムダアーキテクチャも Web Web Web Hadoop log log log Hiveserver2Kafka Spark HBase Phoenix
  46. 46. 46 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Distributed Storage: HDFS Many Workloads: YARN Stream Processing (Storm) Inbound Messaging (Kava) Real-me Serving (HBase) Alerts & Events (AcveMQ) Real-Time User Interface One cluster with consistent security, governance & opera?ons SQL Interacve Query (Hive on Tez) Truck Sensors HDP for テレメトリクス
  47. 47. 47 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Page 47 HDFS Input Feed Hive Storm Search UI(Banana) Query UI Output Feed Solr HDP Search(Solr Cloud)を使ったビジュアライズ
  48. 48. 48 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm Ã  Overview – Components walkthrough Ã  Apache Ambari – Cluster Manager Ã  Sample architectures Ã  Security Ã  Cloudbreak Ã  Geung Started
  49. 49. 49 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Others ISV Engines YARN : Data Operating System DATA ACCESS 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N Batch MapReduce Script Pig Search Solr SQL Hive NoSQL HBase Accumulo Phoenix Stream Storm In-memory Spark TezTez Tez Slider Slider HDFS Hadoop Distributed File System DATA MANAGEMENT YARNの柔軟なAPIによりリソー スが抽象化され、様々なアプリ ケーションが共存できるように なった。 HDFSはマルチテナントな巨⼤な データストアとなった。 YARN これにより、様々な組織や部署の ひとが共⽤Hadoopクラスタを使 うようになった。 Division A Division B
  50. 50. 50 © Hortonworks Inc. 2011 – 2016. All Rights Reserved In Hortonworks Data Pla0orm: Administra?on Central management & consistent security Authen?ca?on Authencate users and systems Authoriza?on Provision access to data Audit Maintain a record of data access Data Protec?on Protect data at rest and in moon Kerberos, Apache Knox Apache Ranger, HDFS Permission Apache Ranger HDFS Transparent Data Encryption with Ranger KMS Apache Ambari
  51. 51. 51 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Typical Access Control Flow - SQL Page 51 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  52. 52. 52 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HDFS Typical Flow – SQL Access through Beeline client HiveServer 2 A B C Beeline Client Security set up with Hortonworks Data Platform
  53. 53. 53 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HDFS Typical Flow – Authenticate through Kerberos or LDAP HiveServer 2 A B C KDC Login into Hive Hive gets Namenode (NN) service cket Hive creates map reduce using NN ST Client gets service cket for Hive Beeline Client Security set up with Hortonworks Data Platform Acve Directory Hiveserver2はKerberosもしくはLDAP認証を⾏える ※カスタムな認証も実装可能
  54. 54. 54 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HDFS Typical Flow – Add Authorization through Ranger HiveServer 2 A B C KDC Hive gets Namenode (NN) service cket Column level access control, auding Ranger Beeline Client File level access control Acve Directory Import users/ groups from LDAP Login into Hive using AD password Security set up with Hortonworks Data Platform
  55. 55. 55 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HDFS Typical Flow – Firewall, Route through Knox Gateway HiveServer 2 A B C KDC Use Hive ST, submit query Hive gets Namenode (NN) service cket Hive creates map reduce using NN ST Ranger Knox gets service cket for Hive Knox runs as proxy user using Hive ST Original request w/user id/ password Client gets query result Beeline Client Apache Knox Acve Directory Security set up with Hortonworks Data Platform
  56. 56. 56 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HDFS Typical Flow – Add Wire and File Encryption HiveServer 2 A B C KDC Use Hive ST, submit query Hive gets Namenode (NN) service cket Hive creates map reduce using NN ST Ranger Knox gets service cket for Hive Knox runs as proxy user using Hive ST Original request w/user id/ password Client gets query result SSL Beeline Client SSL SASL SSL SSL Apache Knox Acve Directory Security set up with Hortonworks Data Platform
  57. 57. 57 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm Ã  Overview – Components walkthrough Ã  Apache Ambari – Cluster Manager Ã  Sample architectures Ã  Security Ã  Cloudbreak Ã  Geung Started
  58. 58. 58 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Cloudbreak Ã  SequenceIQが開発したオープンソースのクラウド向けHadoopデプロイツール BI / Analy?cs (Hive) IoT Apps (Storm, HBase, Hive) Dev / Test (all HDP services) Data Science (Spark) Cloudbreak 1.  Pick a Blueprint 2.  Choose a Cloud 3.  Launch HDP! Example Ambari Blueprints: IoT Apps, BI / Analycs, Data Science, Dev / Test
  59. 59. 59 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Page 59 •  クラスタを容易にデプロイするための 洗練されたUIやAPI •  複数のクラスタの管理も可能 •  クラウドのインフラストラクチャ上に Dockerを使ってHadoopクラスタをデ プロイ •  クラスタのAutoScaleもサポート Cloudbreak
  60. 60. 60 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Cloudbreak AWS Page 60 Ambari Blueprint AWS IAM Role Scaling Policies VM VM VM VM VM VM VM VM 1. Provision VMs & Storage 2. Install Ambari Ambari Mgt 3. Install Ambari Blueprint Master YARN RM Master Slave NN Slave Slave Slave Slave Data Data Data Storm Spark VM Slave Spark 4. Scale up Spark Cloudbreak
  61. 61. 61 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Pla0orm Ã  Overview – Components walkthrough Ã  Apache Ambari – Cluster Manager Ã  Sample architectures Ã  Security Ã  Cloudbreak Ã  Geung Started
  62. 62. 62 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Getting started with HDP HDPクラスタを構築するにはAmbari Serverをインストールして、そこからクラ スタ構築ウィザードを⾛らせればOK Ã  Ambari Serverをインストール(yum, apt-get) Ã  Login to http://AMBARI_SERVER:8080 Ã  クラスタ構築ウィザードを起動 hGp://goo.gl/gsQyKw
  63. 63. 63 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Getting started with HDP - Sandbox Hortonworks Sandboxは構築済みのAmbari、HDPのVMイメージ。VirtualBoxと VMware⽤のイメージが⽤意されている。また、Microsoft Azure上で簡単にトラ イすることも可能。 hGp://hortonworks.com/products/hortonworks-sandbox/#install
  64. 64. 64 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Agenda Ã  Hortonworks? Ã  Hadoopやビッグデータを取り巻く最近の事情 Ã  Hortonworks Data Platform
  65. 65. 65 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 次回! Ã  4/22(⾦) 12:00 Ã  タイトル: HiveもしくはSparkについて(仮) 今⽇のウェビナーはオンデマンドでも閲覧可能です! 品質改善のため、RATINGSからウェビナーの評価をお願いします!

×