Elastic MapReduce - Amazonが提供するHadoopサービス -            Amazon Data Service Japan                 Shinpei Ohtani
自己紹介大谷 晋平(おおたに しんぺい)アマゾンデータサービスジャパン株式会社所属  ソリューションアーキテクトソーシャルネットワーク  Twitter: @shot6  Facebook: facebook.com/shot6  Ma...
アジェンダAmazon Web Services(AWS)とはBig Dataが抱える課題HadoopとはAmazon Elastic MapReduce(EMR)EMR機能EMR利用事例まとめ
アマゾンの3つのビジネス一般消費者様         Eコマース向けサービス       (Amazon.co.jp)            マーケットプレイスセラー様向け      物流サービス提供 サービス       (Amazon Se...
Amazon Web Services(AWS)とは ミッションステートメント  あらゆるビジネスが必要とするスケーラブル   で、高度なアプリケーションを作るための   プラットフォームの提供    • 現在クラウドコンピューティングと呼ば...
The “Living” AWS Cloud                         Tools to access                         services                         Cr...
何故Big dataがそんなに大変なのか?以下の組み合わせによる困難さ:•   桁違いのデータ量を扱わなくてはいけない•   複数のデータソースと複数のフォーマット•   様々なデータ構造•   即時性が求められる現状のシステムではスケールしな...
あるインターネット小売でのデータウェアハウスの要求今までの要求 – うまく定義されたスキーマ  売り上げレコード、顧客レコード、商品レコード新しい要求 – 半構造データ/スキーマなし、継続的に進化  クリックストリームログ、エラーログ、検索...
Hadoopとは?Big Dataを扱うためには下記の2つが必要:  – スケーラブルな分散ストレージ  – 低価格で柔軟に行うことが出来る分析Apache Hadoop とは上記を満たすオープンソース のフレームワーク  – HDFSは耐障害...
Amazon Elastic MapReduce(EMR)
Amazon Elastic MapReduceとは 大規模データ処理基盤をあらゆる開発者に!  Hadoopクラスタをオンデマンドで好きなだけ実行可能   • 数ノードから数千ノードまで   • AWSのスケーラブルなインフラストラクチャの...
Amazon Elastic MapReduceとは(2) Big Data処理のための煩雑な事を肩代わり    Hadoopクラスタの適切なサイズ見積もりも、サーバ調達も難しい    Hadoopのチューニングは更に難しい    ネット...
EMRがサポートするHadoopスタック•   Hadoop 0.18     •   Hadoop 0.20•   Pig 0.3         •   Pig 0.6•   Hive 0.4        •   Hive 0.5/0.7...
EMRアーキテクチャ
EMRを支えるAWSプラットフォームAmazon EC2  スケーラブルなコンピュートプラットフォーム  柔軟でスケールアップ、スケールアウト可能  EMRのMasterノード、Coreノード、タスクノードを展開Amazon S3  ス...
EMRを中心としたアーキテクチャ                                             Amazon S3               巨大なデータセットや、                          ...
• ジョブフローを起動して以下で管理可能  • AWS マネージメントコンソール  • コマンドライン  • REST API
EMR機能: 稼働中ジョブフローの拡張  利用シナリオ: ジョブフローの高速化    要件変更によるジョブフローの実行速度の向上    ジョブの再起動なしに、ジョブにかけるコストとパフォーマンス対比を     変更できる          ...
EMR機能: 稼働中ジョブフローの拡張/伸縮       利用シナリオ: 柔軟なデータウェアハウスクラスター        クラスタサイズをリソースの必要性に応じて変更         (例:日中のクエリ実施 vs 夜間バッチ処理)     ...
EMR + Spotインスタンスの活用 EMRを活用し始めると、更にアドホックなクエリをどんどん 実行したくなる  しかし、コスト的に抑えておきたい EMRとSpotインスタンスのインテグレーション  Spotインスタンスって???
課金モデルのイノベーションオンデマンド      リザーブドイ        スポットイン        占有インスタインスタンス       ンスタンス         スタンス           ンス• 従量課金制     • 初期費用 ...
Spotインスタンスの詳細EC2インスタンスを購入の際の購入オプションの一つコスト削減効果が非常に高い  使用していないEC2キャパシティに指値  よりコストコントロールが効く  EMRでのアドホックな追加クエリ、実験的なクエリに最適オン...
M1.XLARGEインスタンスの価格履歴Amazon EC2 オンデマンド(東京リージョン)の価格は$0.60
EMR機能: Spotインスタンスの活用    スポットインスタンス=利用者が指値を入れるインスタンス    利用シナリオ: ジョブフローのランニングコストを抑えたい     オンデマンドのm2.xlarge 4ノードで開始     処理の...
その他の機能クラスタインスタンスタイプのサポート  US東海岸のみ  通常のインスタンスと比較して速度が大幅に向上するケースもAWS固有設定を施したワークフロー  メモリインテンシブ設定などブートストラップアクション  起動時にユーザが...
EMRが有効な領域例データマイニング/BI  ログ解析、クリックストリーム分析、近似分析データウェアハウスアプリケーション大量ファイル処理・変換バイオインフォマティクス(遺伝子解析)金融シミュレーション(モンテカルロ計算等)Webインデックス構築
EMRの利用事例
クリックストリーム分析 – Razorfish Razorfishが巨大小売店向けに開発   一日35億レコード, 7100万ユニーククッキー, 170万広告          ユーザは最近          ホームシア          タ...
Razorfishの事例 –その効果- 顧客のEMR導入前    SANストレージ/30サーバ/ハイエンドのSQLサーバ3台    初期費用:40,000,000円    運営費も甚大なコスト    調達にかかった時間:2か月    ...
Razorfishの事例 –アーキテクチャ-            Aggregate         Log                                           File ExportAPIs        A...
Sonetの事例 広告配信ログの分析    1日平均10GB、年間3.65TB    1年分5TBデータをS3にアップロードしてからEMRを利用    オンプレミスでの試算:初期費用だけで数千万円単位    EMR+S3での実際:毎月5...
SonetのEMR利用アーキテクチャ
エコシステム、サードパーティツールEMRはサードパーティのGUI製品とも連携出来ます: BI製品  MicroStrategy, Pentaho分析  Datameer, Karmasphere, Questオープンソース  Beeswax
EMRに関連する都市伝説
Q.オンプレミスHadoopの方が早い 物理ハードウェア vs 仮想化  確かに物理ハードウェアの方が早い場合が多い 大事な点はEMRのもたらす柔軟性・拡張性  EMR=スケーラブルなインフラ(EC2/S3)+スケーラブルなフ   レームワ...
Q.オンプレミスHadoopの方が安い 物理ハードウェアは最近本当に安い  Hadoopであれば高価なハードウェアは要らない  HDFSによるレプリケーション 調達の時間的コストは別  ハードウェア調達して、インストール・設定するコストは...
S3のスケール  Peak Requests:                                                     449 Billion    290,000+    per second         ...
Q.Hadoopの面倒は見てくれないのでは? EMRのHadoopは深刻な問題に対してはパッチを適用  Hadoopの深刻なバグを低コストで回避可能 定期的にメンテナンス、バージョンアップに対応  現状は0.18.3/0.20.2 ユーザの...
Q.AWSもサーバが足りなくなるのでは?アマゾン ドット コムが2000年当時年商27.6億ドルの企業であった時に必要なキャパシティと同等のものをAWSは毎日追加しています。EMRでも多くのお客様から多数の台数を頂いています  20台を超える...
Beyond Hadoop Hadoopだけが問題なのではない   HadoopへのIN/OUT含めて、システム全体が    • スケーラブルであること    • フレキシビリティの確保    • コスト/機能が選択可能で、基本的に低コスト ...
AWSが提供するBig Data Enterprise Stack
クラウド上での大量データ処理の概要モデル                               データの生                               成・保存、                   並列分析       ...
まとめ大量データ処理及びバッチ高速化のニーズは大きい  Hadoopはその突破口となる大きな可能性を持つEMRはHadoopの煩雑さを取り除くAWSサービス  大量データのバッチ処理を柔軟に高い費用対効果で実現  開発者は本来やるべき業務...
お問い合わせは・・・  http://aws.amazon.com/jp/
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Upcoming SlideShare
Loading in...5
×

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall

8,541

Published on

Published in: Technology
0 Comments
12 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
8,541
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
153
Comments
0
Likes
12
Embeds 0
No embeds

No notes for slide

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall

  1. 1. Elastic MapReduce - Amazonが提供するHadoopサービス - Amazon Data Service Japan Shinpei Ohtani
  2. 2. 自己紹介大谷 晋平(おおたに しんぺい)アマゾンデータサービスジャパン株式会社所属  ソリューションアーキテクトソーシャルネットワーク  Twitter: @shot6  Facebook: facebook.com/shot6  Mail: ohtani@amazon.co.jpHadoopユーザグループの末席におります
  3. 3. アジェンダAmazon Web Services(AWS)とはBig Dataが抱える課題HadoopとはAmazon Elastic MapReduce(EMR)EMR機能EMR利用事例まとめ
  4. 4. アマゾンの3つのビジネス一般消費者様 Eコマース向けサービス (Amazon.co.jp) マーケットプレイスセラー様向け 物流サービス提供 サービス (Amazon Services) 開発者様& クラウド コンピューティングIT プロ様向け (Amazon Web Services) サービス
  5. 5. Amazon Web Services(AWS)とは ミッションステートメント  あらゆるビジネスが必要とするスケーラブル で、高度なアプリケーションを作るための プラットフォームの提供 • 現在クラウドコンピューティングと呼ばれる 10年以上にわたるAmazonのプラットフォーム構築・ 運用のノウハウを結集させ、汎用的にサービスとしてご 提供
  6. 6. The “Living” AWS Cloud Tools to access services Cross Service features High-level building blocks Low-level building blocks
  7. 7. 何故Big dataがそんなに大変なのか?以下の組み合わせによる困難さ:• 桁違いのデータ量を扱わなくてはいけない• 複数のデータソースと複数のフォーマット• 様々なデータ構造• 即時性が求められる現状のシステムではスケールしない (意図されていない)• インフラの調達だけで非常に時間がかかる• 特殊なデータベースの専門家が必要• 非常に高価で伸縮性のないソリューションBig Dataを扱うためのソリューションが必要
  8. 8. あるインターネット小売でのデータウェアハウスの要求今までの要求 – うまく定義されたスキーマ  売り上げレコード、顧客レコード、商品レコード新しい要求 – 半構造データ/スキーマなし、継続的に進化  クリックストリームログ、エラーログ、検索ログ – 顧客動向を探る手 がかり  レビュー結果、like/don’t like、レーティング、フィード – 顧客の心 象を探る手がかり  ソーシャルコミュニケーション – ソーシャルな中への広がり 既存データに加えて、新しいデータは半構造で とめどなく膨張しており、かつ有効なデータ
  9. 9. Hadoopとは?Big Dataを扱うためには下記の2つが必要: – スケーラブルな分散ストレージ – 低価格で柔軟に行うことが出来る分析Apache Hadoop とは上記を満たすオープンソース のフレームワーク – HDFSは耐障害性のある分散ファイルシステムでコモディ ティサーバ用に特化 – MapReduceプログラムによって、巨大なデータに対して の網羅的な分析を実施顧客が受けるメリット – 誰でも入手可能 – Cost / TB is a fraction of traditional options – スケーラブル – PBオーダまではリニアにスケール可能で既に実績多数。 – 柔軟性 – データはスキーマのある/なしで両方保存可能
  10. 10. Amazon Elastic MapReduce(EMR)
  11. 11. Amazon Elastic MapReduceとは 大規模データ処理基盤をあらゆる開発者に!  Hadoopクラスタをオンデマンドで好きなだけ実行可能 • 数ノードから数千ノードまで • AWSのスケーラブルなインフラストラクチャの上で実行 分析・解析アプリケーションに集中できる  オンプレミスから修正なしにMapReduceアプリケーションを持込可能  複数のバージョンから選択可能で、AWSがパッチ適用とテストを行い、ク ラウドに最適化したHadoopが利用可能 S3による入力・出力データを保護  インプットデータ及びアウトプットデータは非常に高い堅牢性を誇る S3に保存するのでデータを欠損する事がない
  12. 12. Amazon Elastic MapReduceとは(2) Big Data処理のための煩雑な事を肩代わり  Hadoopクラスタの適切なサイズ見積もりも、サーバ調達も難しい  Hadoopのチューニングは更に難しい  ネットワークを最適化するのは更に難しい  Hadoopクラスタのデバッグも難しい AWSサービスとのインテグレーション  パフォーマンスの最適化  クラウド環境下でのネットワークプロビジョニングと最適化  クラスタサイズの動的な拡張と伸縮
  13. 13. EMRがサポートするHadoopスタック• Hadoop 0.18 • Hadoop 0.20• Pig 0.3 • Pig 0.6• Hive 0.4 • Hive 0.5/0.7• Cascading 1.1 • Cascading 1.1
  14. 14. EMRアーキテクチャ
  15. 15. EMRを支えるAWSプラットフォームAmazon EC2  スケーラブルなコンピュートプラットフォーム  柔軟でスケールアップ、スケールアウト可能  EMRのMasterノード、Coreノード、タスクノードを展開Amazon S3  スケーラブルなWebストレージサービス  99.999999999%の堅牢性、非常に安価  EMRのデータ及びアプリケーションのアップロード先SimpleDB  Amazonの管理不要で可用性を重視したNoSQLサービス  カラム指向で簡易クエリも付属  EMRのジョブ状態情報を維持
  16. 16. EMRを中心としたアーキテクチャ Amazon S3 巨大なデータセットや、 Amazon S3 膨大なログをアップロードデータ Inputソース Data Output Data Task Amazon Elastic Node MapReduce Amazon SimpleDB MapReduceCode/ コード Master Task Service MetadataScripts HiveQL Node Node Pig Latin Cascading 複数のジョブフローの ステップを実行 Core HiveQL Node Pig Latin アドホック クエリ Core Node HDFS BI Apps JDBC Amazon Elastic MapReduce ODBC Hadoop Cluster
  17. 17. • ジョブフローを起動して以下で管理可能 • AWS マネージメントコンソール • コマンドライン • REST API
  18. 18. EMR機能: 稼働中ジョブフローの拡張 利用シナリオ: ジョブフローの高速化  要件変更によるジョブフローの実行速度の向上  ジョブの再起動なしに、ジョブにかけるコストとパフォーマンス対比を 変更できる Job Flow Job Flow Job Flow4ノード 9ノードへ 25ノードへ 起動 拡張 更に拡張 残り時間 残り時間 14 Hours 7 Hours 残り時間 3 Hours
  19. 19. EMR機能: 稼働中ジョブフローの拡張/伸縮 利用シナリオ: 柔軟なデータウェアハウスクラスター  クラスタサイズをリソースの必要性に応じて変更 (例:日中のクエリ実施 vs 夜間バッチ処理)  コスト削減とクラスタ利用シーンに応じた柔軟性の確保を両立 データウェアハウス (バッチ処理中) データウェアハウス データウェアハウス (通常時) (通常時)9ノード 25ノードへ 9ノードへ 起動 拡張 戻す
  20. 20. EMR + Spotインスタンスの活用 EMRを活用し始めると、更にアドホックなクエリをどんどん 実行したくなる  しかし、コスト的に抑えておきたい EMRとSpotインスタンスのインテグレーション  Spotインスタンスって???
  21. 21. 課金モデルのイノベーションオンデマンド リザーブドイ スポットイン 占有インスタインスタンス ンスタンス スタンス ンス• 従量課金制 • 初期費用 + • 指定した価 • マルチテナ 従量課金 格で従量課 ントを単一 • 1年コミット 金 顧客が占有• 時間あたり で$56、時間 • 時間当たり • $10/リー $0.03開始 当たり $0.01 $0.005という ジョン、 時 から開始 場合も 間あたり $0.105 規制や、コンスパイク対応 本番利用 アドホックな プライアンス 評価検証 定常的な利用 用途 対策 AWS EC2インフラストラクチャ
  22. 22. Spotインスタンスの詳細EC2インスタンスを購入の際の購入オプションの一つコスト削減効果が非常に高い  使用していないEC2キャパシティに指値  よりコストコントロールが効く  EMRでのアドホックな追加クエリ、実験的なクエリに最適オンデマンドやリザーブドインスタンスとは異なる挙動  入札した価格に見合う間だけ利用可能  AWSのリザーブド・オンデマンドの余剰リソースを低価格で貸し出しリージョン毎・ゾーン毎に指定可能に
  23. 23. M1.XLARGEインスタンスの価格履歴Amazon EC2 オンデマンド(東京リージョン)の価格は$0.60
  24. 24. EMR機能: Spotインスタンスの活用 スポットインスタンス=利用者が指値を入れるインスタンス 利用シナリオ: ジョブフローのランニングコストを抑えたい  オンデマンドのm2.xlarge 4ノードで開始  処理の高速化のためスポットインスタンスで5ノード追加 Job Flow スポットなしのコスト Job Flow 4 instances *14 hrs * $0.50 = $28 Spot4ノードで 5ノード スポットありのコスト 起動 4 instances *7 hrs * $0.50 = $13 + 追加 5 instances * 7 hrs * $0.25 = $8.75 Total = $21.75 残り時間 残り時間 14時間 7時間 時間の削減効果: 50% コスト削減効果: ~22%
  25. 25. その他の機能クラスタインスタンスタイプのサポート  US東海岸のみ  通常のインスタンスと比較して速度が大幅に向上するケースもAWS固有設定を施したワークフロー  メモリインテンシブ設定などブートストラップアクション  起動時にユーザがHadoop及び周辺をカスタマイズできるHive 0.7  HAVING句、IN句の導入  ローカルモードクエリのパフォーマンス向上、カラム圧縮効率の向上、 動的パーティショニングS3 マルチパートアップロードによるアップロード時間の短縮
  26. 26. EMRが有効な領域例データマイニング/BI  ログ解析、クリックストリーム分析、近似分析データウェアハウスアプリケーション大量ファイル処理・変換バイオインフォマティクス(遺伝子解析)金融シミュレーション(モンテカルロ計算等)Webインデックス構築
  27. 27. EMRの利用事例
  28. 28. クリックストリーム分析 – Razorfish Razorfishが巨大小売店向けに開発  一日35億レコード, 7100万ユニーククッキー, 170万広告 ユーザは最近 ホームシア ターシステム ターゲット広告 を購入し、ビ デオゲームを (一日170万) 見ている• EMRとS3を利用 – オンデマンドで100ノードクラスタを実行 – 処理時間が2日間から8時間へ減尐
  29. 29. Razorfishの事例 –その効果- 顧客のEMR導入前  SANストレージ/30サーバ/ハイエンドのSQLサーバ3台  初期費用:40,000,000円  運営費も甚大なコスト  調達にかかった時間:2か月  処理にかかる時間:48時間 EMR導入後の費用対効果  EMR/S3/オープンソースのCascadingを利用  初期費用:0円  運営費:約100万円(コスト↓)  調達にかかった時間:0(ただし評価検証に6週間)  処理にかかる時間:8時間 ROAS(広告費用対効果)を500%改善
  30. 30. Razorfishの事例 –アーキテクチャ- Aggregate Log File ExportAPIs Ad Serving data Files Internet Client Data SourcesProvided Data Presentation Layer Direct Analytics Processing via Web Application Layer Talend Data Flow Manager EMR Cache Edge OLAP Provisioning DB ODBC Cloud Storage S3 Elastic MapReduce HBase/SDB
  31. 31. Sonetの事例 広告配信ログの分析  1日平均10GB、年間3.65TB  1年分5TBデータをS3にアップロードしてからEMRを利用  オンプレミスでの試算:初期費用だけで数千万円単位  EMR+S3での実際:毎月50万円(年間600万円) • 20分の1以下の支出で実現  スポットインスタンスを活用して、アドホック分析 • コストを50%削減
  32. 32. SonetのEMR利用アーキテクチャ
  33. 33. エコシステム、サードパーティツールEMRはサードパーティのGUI製品とも連携出来ます: BI製品  MicroStrategy, Pentaho分析  Datameer, Karmasphere, Questオープンソース  Beeswax
  34. 34. EMRに関連する都市伝説
  35. 35. Q.オンプレミスHadoopの方が早い 物理ハードウェア vs 仮想化  確かに物理ハードウェアの方が早い場合が多い 大事な点はEMRのもたらす柔軟性・拡張性  EMR=スケーラブルなインフラ(EC2/S3)+スケーラブルなフ レームワーク(Hadoop)  特にHadoop固有の性質としてスケールアウトが非常に有効
  36. 36. Q.オンプレミスHadoopの方が安い 物理ハードウェアは最近本当に安い  Hadoopであれば高価なハードウェアは要らない  HDFSによるレプリケーション 調達の時間的コストは別  ハードウェア調達して、インストール・設定するコストは無駄 膨大に増え続けるデータ量に比例してハードウェアを買い続 けるのも非効率  ハードウェアを購入すると、分析・解析が制限されてしまう HDFSの堅牢性(HDFSだけで本当に大丈夫か)  バックアップの取得、またはマスタからロードしたくなる • そこまで含めてコスト・運用効率があるか  EMRであれば、S3の堅牢性で全て解決
  37. 37. S3のスケール Peak Requests: 449 Billion 290,000+ per second 262 Billion 102 Billion 40 Billion2.9 Billion 14 Billion Q4 2006 Q4 2007 Q4 2008 Q4 2009 Q4 2010 Q2 2011 Total Number of Objects Stored in Amazon S3
  38. 38. Q.Hadoopの面倒は見てくれないのでは? EMRのHadoopは深刻な問題に対してはパッチを適用  Hadoopの深刻なバグを低コストで回避可能 定期的にメンテナンス、バージョンアップに対応  現状は0.18.3/0.20.2 ユーザの方でBootstrapAction時に差し替えも可能  ただしEMR側での最適化が効かなくなるデメリットも  ご利用は計画的に!
  39. 39. Q.AWSもサーバが足りなくなるのでは?アマゾン ドット コムが2000年当時年商27.6億ドルの企業であった時に必要なキャパシティと同等のものをAWSは毎日追加しています。EMRでも多くのお客様から多数の台数を頂いています  20台を超える場合の緩和申請 • http://aws.amazon.com/jp/contact-us/ec2-request/
  40. 40. Beyond Hadoop Hadoopだけが問題なのではない  HadoopへのIN/OUT含めて、システム全体が • スケーラブルであること • フレキシビリティの確保 • コスト/機能が選択可能で、基本的に低コスト Hadoopは非常に重要なコンポーネント  ただし近視眼的になってはいけない • データをロストしない • 運用をやりやすくする • Hadoopのスケーラビリティに追従可能な仕組み
  41. 41. AWSが提供するBig Data Enterprise Stack
  42. 42. クラウド上での大量データ処理の概要モデル データの生 成・保存、 並列分析 インデクシ (ニア)構造化データ データ保存 リアルタイム 処理 ング、アグ半構造化データ リゲーショ 分析 ン Batch Tier Speed Tier S3 Hadoop HBase EMR SimpleDB Cassandra MongoDB RDBMS
  43. 43. まとめ大量データ処理及びバッチ高速化のニーズは大きい  Hadoopはその突破口となる大きな可能性を持つEMRはHadoopの煩雑さを取り除くAWSサービス  大量データのバッチ処理を柔軟に高い費用対効果で実現  開発者は本来やるべき業務(例:分析)に極力集中 • ≠Hadoopクラスタ構築や管理  データはS3で堅牢性を維持し、クラウドのスケーラビリティの メリットを徹底的に活用 • クラスタサイズの動的変更 • ノードのサイズの変更 • スポットインスタンスによるノード追加
  44. 44. お問い合わせは・・・ http://aws.amazon.com/jp/
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×