Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1©	Cloudera,	Inc.	All	rights	reserved.
Cloud Native Hadoop
Tsuyoshi Miyake, Cloudera
2016/11/08
2©	Cloudera,	Inc.	All	rights	reserved.
⾃⼰紹介
• 三宅 剛史(みやけ つよし)
• Sr. Systems Engineer@Cloudera
• Java 開発(製品・サービス)のキャリアがメイン
•...
3©	Cloudera,	Inc.	All	rights	reserved.
Cloud Native Hadoop とは?
4©	Cloudera,	Inc.	All	rights	reserved.
Lift and Shift Cloud-native
Cloudera Enterprise in the Cloud
デプロイモデルの選択
Object Store
5©	Cloudera,	Inc.	All	rights	reserved.
Lift-and-shift ユースケース
Lift-and-shift cluster への要求
• ⾼可⽤性とディザスタリカバリ
• 運⽤管理(パッチ・アップグレ...
6©	Cloudera,	Inc.	All	rights	reserved.
クラスタの短期利⽤、
コスト削減
リソース競合を回避、
ワークロードの最適化
Object Store
ストレージと計算の分離
ストレージ
計算
Cloud-nati...
7©	Cloudera,	Inc.	All	rights	reserved.
Cloud-native ユースケース
オブジェクトストレージと elastic computing の活⽤
Transient cluster への要求
• オブジ...
8©	Cloudera,	Inc.	All	rights	reserved.
ストレージオプション
9©	Cloudera,	Inc.	All	rights	reserved.
クラスターライフサイクル
HDFS
[Lift & Shift]
S3
[Cloud Native]
Persistent Transient
Multi-tenan...
10©	Cloudera,	Inc.	All	rights	reserved.
• 安価
• レプリケーション不要 (9s durability)
• コンピュートとデータの分離
• 複数クラスタでの共有
• ⾼レイテンシー・低スループット
•...
11©	Cloudera,	Inc.	All	rights	reserved.
• Hive on S3
• Spark on S3
• Hive-on-Spark on S3
• Impala on S3
• S3A (s3a://) con...
12©	Cloudera,	Inc.	All	rights	reserved.
• HDFS support only(HBase, Navigator auditing & lineage)
• I/O intensive なジョブ(Spar...
13©	Cloudera,	Inc.	All	rights	reserved.
Lambda Architecture with CDH in Cloud
Data
Sources
Kafka/
Flume
Spark
Streaming
HB...
14©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director のご紹介
15©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director
At the core:
• Cloudera EDH をクラウド環境で管理するためのアプリケーション
• 幾つかのベストプラク...
16©	Cloudera,	Inc.	All	rights	reserved.
Azure
アーキテクチャー with Java SPI (plugins)
Web UI
API console
SDKs
Director Server
(Or...
17©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director ができること
• クラスターの作成・終了
• インスタンスの追加・削除
• AWS プラグイン
• GCP プラグイン
• Az...
18©	Cloudera,	Inc.	All	rights	reserved.
パッケージング
cloudera-director-client
• cloudera-director コマンドを提供
• 設定ファイルを読み込みクラスターを作成...
19©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director デモ
20©	Cloudera,	Inc.	All	rights	reserved.
Cloudera Director Client Bootstrap Demo
• For Mac: https://github.com/tsuyo/cloude...
21©	Cloudera,	Inc.	All	rights	reserved.
Thank you!
tsuyo@cloudera.com
Upcoming SlideShare
Loading in …5
×

Cloud Native Hadoop #cwt2016

3,943 views

Published on

クラウド時代の今、"Cloud Native" や "Microservices" などのワードをよく見かけるようになりました。これらは基本的に「クラウド上でアプリケーションを開発するためのベストプラクティス」を意味する言葉です。一方、Hadoop がクラウドの文脈で語られることはまだまだ少ない状況です。それはアプリケーションと比較して、より H/W や OS に近いレイヤーの Hadoop をクラウド上で稼働させるためには今までとは違う根本的なアーキテクチャーの変更を伴うケースがあるためです。本セッションでは "Cloud Native" な Hadoop とは何か、またそのベストプラクティスをデモを交えて紹介します。

Published in: Technology
  • Be the first to comment

Cloud Native Hadoop #cwt2016

  1. 1. 1© Cloudera, Inc. All rights reserved. Cloud Native Hadoop Tsuyoshi Miyake, Cloudera 2016/11/08
  2. 2. 2© Cloudera, Inc. All rights reserved. ⾃⼰紹介 • 三宅 剛史(みやけ つよし) • Sr. Systems Engineer@Cloudera • Java 開発(製品・サービス)のキャリアがメイン • Cloudera では主にクラウド担当 @tsuyokb | tsuyo@cloudera.com | github.com/tsuyo
  3. 3. 3© Cloudera, Inc. All rights reserved. Cloud Native Hadoop とは?
  4. 4. 4© Cloudera, Inc. All rights reserved. Lift and Shift Cloud-native Cloudera Enterprise in the Cloud デプロイモデルの選択 Object Store
  5. 5. 5© Cloudera, Inc. All rights reserved. Lift-and-shift ユースケース Lift-and-shift cluster への要求 • ⾼可⽤性とディザスタリカバリ • 運⽤管理(パッチ・アップグレード) • リソース管理 • セキュリティ ユースケース • HBase clusters • Kafka clusters • BI analytics*(transient もあり) • Large, multi-user clusters • ローリングアップグレード
  6. 6. 6© Cloudera, Inc. All rights reserved. クラスタの短期利⽤、 コスト削減 リソース競合を回避、 ワークロードの最適化 Object Store ストレージと計算の分離 ストレージ 計算 Cloud-native アプリケーションパターン
  7. 7. 7© Cloudera, Inc. All rights reserved. Cloud-native ユースケース オブジェクトストレージと elastic computing の活⽤ Transient cluster への要求 • オブジェクトストレージの統合 • 迅速なクラスタープロビジョニング ユースケース • ETL ワークフロー • モデル・トレーニング • Dev & Test ワークフロー
  8. 8. 8© Cloudera, Inc. All rights reserved. ストレージオプション
  9. 9. 9© Cloudera, Inc. All rights reserved. クラスターライフサイクル HDFS [Lift & Shift] S3 [Cloud Native] Persistent Transient Multi-tenant Cloud デプロイ・パターン Single user Multi-tenant ストレージオプション クラスターライフサイクル 最もポピュラー
  10. 10. 10© Cloudera, Inc. All rights reserved. • 安価 • レプリケーション不要 (9s durability) • コンピュートとデータの分離 • 複数クラスタでの共有 • ⾼レイテンシー・低スループット • API の制限(スロットリング) • Eventually Consistent ストレージオプション – S3
  11. 11. 11© Cloudera, Inc. All rights reserved. • Hive on S3 • Spark on S3 • Hive-on-Spark on S3 • Impala on S3 • S3A (s3a://) connector ストレージオプション – S3 サポートサービス
  12. 12. 12© Cloudera, Inc. All rights reserved. • HDFS support only(HBase, Navigator auditing & lineage) • I/O intensive なジョブ(Spark ML ジョブの反復的な繰り返しなど) • S3 をバックアップとして都度 HDFS にコピーする Hybrid 型 • 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型 ストレージオプション – HDFS & Hybrid (+S3) S3 Run jobStart Cluster Stop Cluster Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster HDFS 1 hour Time S3 Only Hybrid
  13. 13. 13© Cloudera, Inc. All rights reserved. Lambda Architecture with CDH in Cloud Data Sources Kafka/ Flume Spark Streaming HBase or Impala/Kudu (beta) Kafka オブジェクト ストレージ Hive/Spark/HoS Impala Analytics Batch Data Transformations Batch Analytics 直接のクエリ Real-Time Serving アプリケーション
  14. 14. 14© Cloudera, Inc. All rights reserved. Cloudera Director のご紹介
  15. 15. 15© Cloudera, Inc. All rights reserved. Cloudera Director At the core: • Cloudera EDH をクラウド環境で管理するためのアプリケーション • 幾つかのベストプラクティスを統⼀し、さらにカスタマイズをするための フックを提供 • クラスターのライフサイクルを管理 • Cloudera Manager のコア機能の拡張 Main Goals: • Cloudera 製品をデプロイする際の time-to-value の削減 • 新しい利⽤パターン(オンデマンドクラスター)
  16. 16. 16© Cloudera, Inc. All rights reserved. Azure アーキテクチャー with Java SPI (plugins) Web UI API console SDKs Director Server (Orchestration Engine) API SPI CM-2CDH5 CDH5 AWS GCP Director Client.conf file local state bootstrap SPI CM-1CDH5 CDH5 bootstrap-remote terminate-remote import
  17. 17. 17© Cloudera, Inc. All rights reserved. Cloudera Director ができること • クラスターの作成・終了 • インスタンスの追加・削除 • AWS プラグイン • GCP プラグイン • Azure プラグイン • サービスの DB 作成 • ヘルスチェックと利⽤情報(ダッ シュボード) • bootstrap スクリプトの実⾏ • クラスター作成後、終了前にカス タムスクリプトを実⾏ • HA クラスターの作成 • Kerberos クラスターの作成 • H2(組み込みの DB)または MySQL/MariaDB を Director DB に利⽤可能 • spot / preemptible インスタンス の利⽤可能 • マルチクラウド、マルチリージョ ンサポート
  18. 18. 18© Cloudera, Inc. All rights reserved. パッケージング cloudera-director-client • cloudera-director コマンドを提供 • 設定ファイルを読み込みクラスターを作成、拡張、終了 • 設定ファイルと同じディレクトリに状態をローカルに保存(H2 DB) • 設定ファイルをサーバーに送信することもできる cloudera-director-server • service cloudera-director-server [start | stop | status] • 主にクラスタ管理のための API を提供 • API console と Web UI (デフォルト 7189 ポート)を持つ • 状態管理に組み込み DB を使⽤(MySQL などの外部 DB も使⽤可能)
  19. 19. 19© Cloudera, Inc. All rights reserved. Cloudera Director デモ
  20. 20. 20© Cloudera, Inc. All rights reserved. Cloudera Director Client Bootstrap Demo • For Mac: https://github.com/tsuyo/cloudera-boot • Check AWS console • docker run (~20min.) • Browse cluster.conf • Check CM http://<ip_address>:7180 • Create a Hive external table to data on S3 (by Hue) • Check worker IP • Query the table (by beeline)
  21. 21. 21© Cloudera, Inc. All rights reserved. Thank you! tsuyo@cloudera.com

×