1©	Cloudera,	Inc.	All	rights	reserved.
Cloud Native Hadoop
Tsuyoshi Miyake, Cloudera
2016/11/08
2©	Cloudera,	Inc.	All	rights	reserved.
⾃⼰紹介
• 三宅 剛史(みやけ つよし)
• Sr. Systems Engineer@Cloudera
• Java 開発(製品・サービス)のキャリアがメイン
• Cloudera では主にクラウド担当
@tsuyokb | tsuyo@cloudera.com | github.com/tsuyo
3©	Cloudera,	Inc.	All	rights	reserved.
Cloud Native Hadoop とは?
4©	Cloudera,	Inc.	All	rights	reserved.
Lift and Shift Cloud-native
Cloudera Enterprise in the Cloud
デプロイモデルの選択
Object Store
5©	Cloudera,	Inc.	All	rights	reserved.
Lift-and-shift ユースケース
Lift-and-shift cluster への要求
• ⾼可⽤性とディザスタリカバリ
• 運⽤管理(パッチ・アップグレード)
• リソース管理
• セキュリティ
ユースケース
• HBase clusters
• Kafka clusters
• BI analytics*(transient もあり)
• Large, multi-user clusters
• ローリングアップグレード
6©	Cloudera,	Inc.	All	rights	reserved.
クラスタの短期利⽤、
コスト削減
リソース競合を回避、
ワークロードの最適化
Object Store
ストレージと計算の分離
ストレージ
計算
Cloud-native アプリケーションパターン
7©	Cloudera,	Inc.	All	rights	reserved.
Cloud-native ユースケース
オブジェクトストレージと elastic computing の活⽤
Transient cluster への要求
• オブジェクトストレージの統合
• 迅速なクラスタープロビジョニング
ユースケース
• ETL ワークフロー
• モデル・トレーニング
• Dev & Test ワークフロー
8©	Cloudera,	Inc.	All	rights	reserved.
ストレージオプション
9©	Cloudera,	Inc.	All	rights	reserved.
クラスターライフサイクル
HDFS
[Lift & Shift]
S3
[Cloud Native]
Persistent Transient
Multi-tenant
Cloud デプロイ・パターン
Single user Multi-tenant
ストレージオプション
クラスターライフサイクル
最もポピュラー
10©	Cloudera,	Inc.	All	rights	reserved.
• 安価
• レプリケーション不要 (9s durability)
• コンピュートとデータの分離
• 複数クラスタでの共有
• ⾼レイテンシー・低スループット
• API の制限(スロットリング)
• Eventually Consistent
ストレージオプション – S3
11©	Cloudera,	Inc.	All	rights	reserved.
• Hive on S3
• Spark on S3
• Hive-on-Spark on S3
• Impala on S3
• S3A (s3a://) connector
ストレージオプション – S3 サポートサービス
12©	Cloudera,	Inc.	All	rights	reserved.
• HDFS support only(HBase, Navigator auditing & lineage)
• I/O intensive なジョブ(Spark ML ジョブの反復的な繰り返しなど)
• S3 をバックアップとして都度 HDFS にコピーする Hybrid 型
• 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型
ストレージオプション – HDFS & Hybrid (+S3)
S3
Run jobStart Cluster Stop Cluster
Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster
HDFS
1 hour
Time
S3 Only
Hybrid
13©	Cloudera,	Inc.	All	rights	reserved.
Lambda Architecture with CDH in Cloud
Data
Sources
Kafka/
Flume
Spark
Streaming
HBase or
Impala/Kudu (beta)
Kafka
オブジェクト
ストレージ
Hive/Spark/HoS
Impala
Analytics
Batch Data
Transformations
Batch Analytics
直接のクエリ
Real-Time
Serving
アプリケーション
14©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director のご紹介
15©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director
At the core:
• Cloudera EDH をクラウド環境で管理するためのアプリケーション
• 幾つかのベストプラクティスを統⼀し、さらにカスタマイズをするための
フックを提供
• クラスターのライフサイクルを管理
• Cloudera Manager のコア機能の拡張
Main Goals:
• Cloudera 製品をデプロイする際の time-to-value の削減
• 新しい利⽤パターン(オンデマンドクラスター)
16©	Cloudera,	Inc.	All	rights	reserved.
Azure
アーキテクチャー with Java SPI (plugins)
Web UI
API console
SDKs
Director Server
(Orchestration
Engine)
API SPI CM-2CDH5
CDH5
AWS
GCP
Director Client.conf file
local state
bootstrap
SPI
CM-1CDH5
CDH5
bootstrap-remote
terminate-remote
import
17©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director ができること
• クラスターの作成・終了
• インスタンスの追加・削除
• AWS プラグイン
• GCP プラグイン
• Azure プラグイン
• サービスの DB 作成
• ヘルスチェックと利⽤情報(ダッ
シュボード)
• bootstrap スクリプトの実⾏
• クラスター作成後、終了前にカス
タムスクリプトを実⾏
• HA クラスターの作成
• Kerberos クラスターの作成
• H2(組み込みの DB)または
MySQL/MariaDB を Director DB
に利⽤可能
• spot / preemptible インスタンス
の利⽤可能
• マルチクラウド、マルチリージョ
ンサポート
18©	Cloudera,	Inc.	All	rights	reserved.
パッケージング
cloudera-director-client
• cloudera-director コマンドを提供
• 設定ファイルを読み込みクラスターを作成、拡張、終了
• 設定ファイルと同じディレクトリに状態をローカルに保存(H2 DB)
• 設定ファイルをサーバーに送信することもできる
cloudera-director-server
• service cloudera-director-server [start | stop | status]
• 主にクラスタ管理のための API を提供
• API console と Web UI (デフォルト 7189 ポート)を持つ
• 状態管理に組み込み DB を使⽤(MySQL などの外部 DB も使⽤可能)
19©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director デモ
20©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director Client Bootstrap Demo
• For Mac: https://github.com/tsuyo/cloudera-boot
• Check AWS console
• docker run (~20min.)
• Browse cluster.conf
• Check CM http://<ip_address>:7180
• Create a Hive external table to data on S3 (by Hue)
• Check worker IP
• Query the table (by beeline)
21©	Cloudera,	Inc.	All	rights	reserved.
Thank you!
tsuyo@cloudera.com

Cloud Native Hadoop #cwt2016