Submit Search
Upload
クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016
•
5 likes
•
3,130 views
Cloudera Japan
Follow
Rejected HCJ 2016 で発表した資料です。 http://www.zusaar.com/event/17397003
Read less
Read more
Technology
Report
Share
Report
Share
1 of 28
Download now
Download to read offline
Recommended
Cloudera search
Cloudera search
Mark Kerzner
Introduction to Cloudera Search Training
Introduction to Cloudera Search Training
Cloudera, Inc.
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
HDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
Recommended
Cloudera search
Cloudera search
Mark Kerzner
Introduction to Cloudera Search Training
Introduction to Cloudera Search Training
Cloudera, Inc.
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
HDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Cloudera Japan
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
Cloudera Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
情報を表現するときのポイント
情報を表現するときのポイント
onozaty
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
atsushi061452
More Related Content
More from Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Cloudera Japan
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
Cloudera Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
More from Cloudera Japan
(20)
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Recently uploaded
情報を表現するときのポイント
情報を表現するときのポイント
onozaty
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
atsushi061452
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
Sadaomi Nishi
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
CRI Japan, Inc.
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
CRI Japan, Inc.
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
Akihiro Kadohata
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
Satoshi Makita
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperleger Tokyo Meetup
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
Takayuki Nakayama
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
kokinagano2
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
iPride Co., Ltd.
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
iwashiira2ctf
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
瑛一 西口
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
KLab Inc. / Tech
Recently uploaded
(14)
情報を表現するときのポイント
情報を表現するときのポイント
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016
1.
1© Cloudera, Inc.
All rights reserved. クラウド上でのHadoop基盤 とCloudera Director 2.0 嶋内 翔、Cloudera
2.
2© Cloudera, Inc.
All rights reserved. ⾃自⼰己紹介 • 嶋内 翔(しまうち しょう) • テクニカルエバンジェリスト • 2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社 • お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの 仕事 • email: sho@cloudera.com • twitter: @shiumachi
3.
5© Cloudera, Inc.
All rights reserved. Cloudera Enterprise Hadoop に Fast / Easy / Secure をもたらす 新しいタイプの データプラットフォーム • 一箇所で無制限のデータ • 統合されたマルチフレームワー クデータアクセス Clouderaがもたらすもの: • Fast : ビジネスの迅速性 • Easy : 管理の容易性 • Secure : 包括的・透過的セ キュリティ OPERATIONS DATA MANAGEMENT STRUCTURED UNSTRUCTURED PROCESS, ANALYZE, SERVE UNIFIED SERVICES RESOURCE MANAGEMENT SECURITY FILESYSTEM RELATIONAL NoSQL STORE INTEGRATE BATCH STREAM SQL SEARCH SDK Public Cloud Private Cloud Hybrid Environments Hybrid Deployment Flexibility
4.
6© Cloudera, Inc.
All rights reserved. クラウド上でのHadoopはオンプレとは違う 最適なパフォーマンスのため の区分化 コスト削減のための一時的ク ラスタの採用 効率性のための、ストレージ と計算リソースの別個の拡張 Object Store STORE COMPUTE
5.
7© Cloudera, Inc.
All rights reserved. クラウド上でのHadoopの検討 計算リソースとストレージの弾 力性を簡単にサポートできるだ ろうか? ワークロードの効率性のためど ういう自動化が利用可能だろう か? この環境はエンタープライズ級 の要件を満たしているだろう か? クラスタを停止したあとでも簡 単にトラブルシューティングで きるだろうか? 構築した全クラスタでHadoopの ツールの一貫性を維持できるだ ろうか? 複数のオブジェクトストアをサ ポートしたりスイッチしたりす る必要があるとしたら?
6.
8© Cloudera, Inc.
All rights reserved. Cloudera: クラウド上でのHadoopにおける先進的専門性 CDHは主要クラウドプロバイダにおいて最もデプロイされている Hadoopディストリビューションです 2009 2012 2013 2014 2015 AWS上での大規模 クラスタ Cloudera Enterprise のMSP上でのサポート ClouderaはAzureサ ポートを追加 ClouderaはGCPサポート を追加 プライベートクラウ ドサポート リリース 最初の クラウド上での Hadoopの顧客 クラウドオブ ジェクトストア のサポート
7.
9© Cloudera, Inc.
All rights reserved. ハイブリッド Hadoopディストリ ビューション
8.
11© Cloudera, Inc.
All rights reserved. クラウド上でのワークロードの単純化 ビジネスの転換に対する価値を提供 必要な時に、必要な分だけ支 払う ETL/モデリング どこに置かれていたとしても、 全てのデータを探索し分析す る BI/アナリティ クス たとえ何が起ころうとおもエ ンタープライズレベルでビジ ネスを保護する アプリケー ションデリバ リ 運用コスト削減 新しいインサイトと新し い価値 リスクなしでの稼働
9.
15© Cloudera, Inc.
All rights reserved. Easy: 管理の容易性 自動的に、使った分だけお支払い 自動的な一時クラスタの作成 ジョブ固有のクラスタライフサイクルマネ ジメント ホスティングのコストの削減 スポットインスタンスサポート より多くのジョブのサポート ワークキューの管理をシンプルに ハイブリッド管理 複数の環境にまたがってのビューと管理 Launch Cluster Submit Job Record Results 1 2 3Auto-‐‑‒ Termina te 4
10.
16© Cloudera, Inc.
All rights reserved. ヨーロッパの大規模空港 は数千のマシンからのセ ンサーデータを監視し、 電力使用量や空港利用者 の動線を予測 CUSTOMER 360 参考: http://blog.godatadriven.com/schiphol-‐‑‒implements-‐‑‒datasciencesuite.html
11.
21© Cloudera, Inc.
All rights reserved. アデコは、仕事の空 きと候補者のマッチ ングをより高速に、 正確にすることでリ クルーターの生産性 を向上させ、仕事投 稿の費用を$120M(130 億円)削減
12.
22© Cloudera, Inc.
All rights reserved. カメラ会社はコストを 下げつつ、より高速な 分析と正確性でもって、 新しい市場を分析し、 新製品を創りだした 参考: hZp://techspec[ve.net/2015/08/03/how-‐gopro-‐is-‐using-‐amazon-‐bmc-‐and-‐ cloudera-‐to-‐kick-‐everyone-‐elses-‐buZ/
13.
26© Cloudera, Inc.
All rights reserved. FINRA monitors 50B market events per day to build a holis[c picture of US market ac[vity and make real-‐ [me decisions, while saving $10-‐20M annually
14.
27© Cloudera, Inc.
All rights reserved. Airbnb improved their overall booking rate through machine learning algorithms and beZer search to more effec[vely match customers with the right rental property CUSTOMER 360
15.
34© Cloudera, Inc.
All rights reserved. Cloudera Director 2.0 & C5.5 Releases • 高速デプロイ • ジョブ送信API • スポットインスタンス • クラスタ終了前フック • Hive on S3 • Spark on S3 一時クラスタ • クラスタクローン • クラスタ復旧 • オンデマンドとスポットイ ンスタンスを同じクラスタ で実行可能 • Impala on S3 (beta) BI/分析クラスタ • HAクラスタの拡張 • HA/Kerberosクラスタをブー トストラップ時に有効可能 • ワーカーノードの復旧 • 外部DBオプション • より多くのインサイトを持 つUIの改善 アプリケーション デリバリクラスタ ALL WORKLOADS: • AWS s3aコネクタサポート • クラスタテンプレート • GUI 改善: クラスタの集約とインスタンスレベルのメタデータビューとフィルタリング
16.
35© Cloudera, Inc.
All rights reserved. Power BI Microso> Azure Marketplace Marketplace Delivers • Full cloud deployment; no hardware dependency • Start work in <40min using Azure templates • Fully automated setup with best prac[ces from OS to Cloudera Customer 360 Compliance InnovaKon Product & Services ExpressRoute Cloudera’s Azure Marketplace Offering
17.
36© Cloudera, Inc.
All rights reserved. Get Started AWS Reference Guide GCP Reference Guide Download Cloudera Director www.cloudera.com/downloads Try It Out Cloudera Live (includes step-‐by-‐step tutorial) AWS Quickstart Azure Marketplace Resources API Integra[on & Scrip[ng hZps://github.com/cloudera/director-‐ sdk hZps://github.com/cloudera/director-‐ scripts Addi[onal Cloud Integra[on hZps://github.com/cloudera/director-‐spi hZps://github.com/cloudera/director-‐ google-‐plugin
18.
37© Cloudera, Inc.
All rights reserved. Cloudera on AWS
19.
38© Cloudera, Inc.
All rights reserved. Cloudera on AWS の基本的な考え⽅方 • ⻑⾧長期稼働クラスタが基本 • ⼀一時クラスタは単発的なバッチ処理理のみ • HDFSのデータは性能確保のためインスタンスストレージに保存 • よって、データセンター障害時などにより全インスタンスが停⽌止した場 合、HDFS上のデータは失われる • データの永続化はS3で⾏行行う • ⾼高CPUコア数 / ⾼高メモリ数のインスタンスを少数稼働させる
20.
39© Cloudera, Inc.
All rights reserved. ストレージ選定 ストレージのタイプ メリット デメリット ⽤用途 S3 • 耐障害性が⾼高い • インスタンスの起動が不不要 • スループットが遅い • HDFSと異異なり、パーミッション 情報などを保持出来ない • Hadoopエコシステムの全機能が 対応しているわけではない • データの永続化層 • データ取り込み⼝口 インスタンスストレージ (エフェメラルストレージ) • インスタンスに直結している物理理 ディスクを使うため、Hadoop本来 の性能を発揮可能 • 通常のHDFS⽤用のディスクとして機 能するため、Hadoopエコシステム の全機能が利利⽤用可能 • インスタンス障害により全ストレー ジ情報がロストする • HDFS EBS • ランダムIOに強い • インスタンスを停⽌止してもデータを 保持可能 • シーケンシャルIOに弱い • ⾼高い • EC2/EBS間のネットワーク帯域は 制限されているのでボトルネックに なる • OSデータの保存
21.
40© Cloudera, Inc.
All rights reserved. インスタンス選定 ワークロードのタイプ サービスの例例 管理理ノード⽤用インスタンス ワーカーノード⽤用インスタンス バッチ処理理 • MapReduce • YARN • Spark • Hive • Pig • Crunch • c3.8xlarge • d2.2xlarge • i2.2xlarge • i2.4xlarge • i2.8xlarge • r3.8xlarge • m2.4xlarge • c3.8xlarge • d2.8xlarge • i2.2xlarge • i2.4xlarge • i2.8xlarge • r3.8xlarge リアルタイム処理理 • HBase • Solr • Impala • c3.8xlarge • d2.2xlarge • i2.4xlarge • i2.8xlarge • r3.8xlarge • d2.8xlarge • i2.4xlarge • i2.8xlarge エンタープライズデータハブ • CDHの全サービス • d2.2xlarge • i2.2xlarge • i2.4xlarge • d2.8xlarge
22.
41© Cloudera, Inc.
All rights reserved. ネットワーク • VPC 必須 • 1サブネット1クラスタの構成が最も簡単 • ネットワークACLは使わず、セキュリティグループでアクセス管理理する • Flume ノード、ワーカー、マスターなどのロールに応じてセキュリティグルー プで通信経路路を制御する • ロール毎にサブネットを分けるとネットワークトポロジーは複雑になる • インターネットアクセスの管理理 • 全インスタンスにパブリックIPアドレスを持たせる • インターネットGWとサブネット間の通信はルーティングで制御 • NATインスタンスを別のサブネットに持たせる • NATインスタンスは通常は Linux EC2 インスタンス • オンプレミスDCとの接続 (VPC or Direct Connect) • データマイグレーションの予定がなければ不不要
23.
43© Cloudera, Inc.
All rights reserved. データ取り込み戦略略 • S3ファースト • データの永続化は保証される • S3からdistcpなどによりHDFSにロードするため、Hadoop上で利利⽤用可 能になるまでは少し時間がかかる • HDFSファースト • すぐにHadoop上で利利⽤用できる • S3に転送する前にデータセンター障害などで全インスタンスが停⽌止する と、データは失われる
24.
44© Cloudera, Inc.
All rights reserved. バックアップ・リストア戦略略 • バックアップ • S3へのdistcpが基本 • パーミッション / ACL などが失われるため、HDFS上のセキュリティ が必須ならクラスタ⼆二重化しかない • HBaseならスナップショット保存が可能 • こちらもパーミッションを引き継げない • 2つのAZにまたがってのクラスタ⼆二重化 • Hiveメタストア等のRDBMSはAmazon RDSを使って耐障害性を確保 • リストア • distcpでS3からHDFSにロード
25.
45© Cloudera, Inc.
All rights reserved. クラウド環境とHadoop オブジェクトストレージ インスタンスストレージ Impala Spark Kafka Flume HDFS HBase データソース クラウド
26.
46© Cloudera, Inc.
All rights reserved. バッチ処理理とアドホック処理理 • インスタンスの動的⽴立立ち上げとS3からのデータ取得による実⾏行行(バースト 実⾏行行) • 常時⽴立立ち上げる必要がなくコスト削減につながるが、データのロードに 時間がかかるため、処理理は遅くなる • 利利⽤用頻度度が上がるなら常時稼働させた⽅方がコストは安くなるはず • また、利利⽤用状況がわかっているのなら必要なリソースを計算できるので、 必要最低限のインスタンスの稼働で済むはず • アドホック処理理(Impala等) • 常時稼働させた状態でインスタンスストレージにデータをロードしてお くことで性能を確保できる
27.
47© Cloudera, Inc.
All rights reserved. Impala on S3 • C5.5 時点ではテクニカルプレビュー • 対応状況 • JOIN: HDFS, HBase, S3 全て相互にJOIN可能 • メタデータ管理理(SentryによるACL含む): 対応済 • リソース管理理: 対応済 • 未対応 • DML • INSERT / LOAD DATA / CREATE TABLE AS SELECT • 制限事項 • 性能は当然スピンドルより落落ちる • チューニング⽅方法で使えるものと使えないものがある • HDFSショートサーキットリードなどは当然使えない
28.
48© Cloudera, Inc.
All rights reserved. Thank you
Download now