AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-

6,195 views

Published on

Published in: Technology
0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
6,195
On SlideShare
0
From Embeds
0
Number of Embeds
1,159
Actions
Shares
0
Downloads
280
Comments
0
Likes
10
Embeds 0
No embeds

No notes for slide

AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-

  1. 1. AWSマイスターシリーズ Amazon EMR 2011 11月30日 大谷 晋平(@shot6) ソリューションアーキテクト
  2. 2. ほぼ週刊AWSマイスターシリーズへようこそ!~GoToMeeting参加者は、自動的にミュートになっています質問を投げることができます! GoToMeetingチャットの仕組みで、随時書き込んでください お手数ですが、テキストエディタ等に打ち込んでから、 貼り付けててください 最後のQ&Aの時間で、できるだけ回答させて頂きますTwitterのハッシュタグは#jawsugでどうぞ Copyright © 2011 Amazon Web Services
  3. 3. Webセミナーほぼ週刊AWSマイスターシリーズ(全11回?) 11/16 第08回 RDS 11/22 第09回 Elastic Beanstalk 11/30 第10回 EMR 12/07 第11回 SES 12/15 第12回 S系全部載せ!SQS/SimpleDB/SNS申し込みサイト http://aws.amazon.com/jp/event_schedule/
  4. 4. 好きなAWSのサービスは?
  5. 5. ファミリーのロゴ・・・
  6. 6. !
  7. 7. 。。。
  8. 8. プレゼント 寒い年末年始も安心 超限定本日のプレゼントは・・・ AWS特製(社員も もってない)あったか ウインドブレーカー を差し上げます!
  9. 9. アジェンダHadoopとはAmazon Elastic MapReduce(EMR)EMR機能EMRに関する都市伝説まとめ
  10. 10. Apache Hadoopとは?Big Dataを扱うために: – スケーラブルな分散ストレージ –Hadoop は上記を満たすオープンソース製品 – HDFS(Hadoop Distributed File System) – 巨大なデータを扱えるバッチ システム。 – コモディティサーバに特化。 – MapReduce – る
  11. 11. Apache Hadoopとは(2) エンドユーザが受けるメリット – 誰でも入手可能 – スケーラブル – 柔軟性 – 実績も多く、PBオーダまでリニアにスケ ール可能な、分析基盤が誰でも使える –4000台までスケール
  12. 12. Hadoop ”スタック”
  13. 13. イメージで掴む MapReduce
  14. 14. (map ‘( )) ( )(reduce ‘( ))
  15. 15. チャンクに分解 MapMap (<a, > , <o, > , <p, > , …) Map (<a’, >, <o’, >, <p’, >, …)(Shuffle ) ReduceReduce (<a’, >, …)
  16. 16. RDBMSとHadoopの違いRDBMS Hadoop 事前定義したスキーマ スキーマなし 1台で稼働する事が前提 分散・協調して動く前提 SQLによるアクセス SQLでない複数言語サポート リニアにスケールしない リニアにスケールする 小規模データ 大規模データ 構造化データ 半構造化データ
  17. 17. Hadoopの課題Hadoopのスケーラビリティを活かすには購入してしまうと拡張するのも困難。自由にノードを追加・縮小できないデータをHDFSだけに保存するのはリスク データ紛失のリスクがぬぐいきれない
  18. 18. Amazon Elastic MapReduce(EMR)
  19. 19. Amazon Elastic MapReduceとは Hadoop • 使った分だけなので、低コスト 開発者は分析・解析アプリケーションに集中 • 結果を出すまでの最短パス AWS S3 • データをロストしない仕組み
  20. 20. Amazon Elastic MapReduceとは(2) Big Data 解析をトライアンドエラー出来る ユーザ動向にあわせ、アドホックに解析可能 • 収集→保存→解析→アクションの サイクルをもっと早く! AWSの他サービスとのインテグレーション S3との連携機能 JavaやRubyなどのSDK
  21. 21. 図で表すと・・・ OS ラックへ 電源とNW HWの購入 インス 設置 を設定 トール Hadoop Hadoop Hadoop 基本設定 インス クラスタ 稼働確認 トール 構築
  22. 22. 図で表すと・・・EMRであれば・・・ Hadoop OS ラックへ 電源とNW Hadoop HWの購入 インス 設置 を設定 何ノードで トール あげるか、 Hadoop 稼働確認 Hadoop 指定する Hadoop 基本設定 インス クラスタ 稼働確認 トール 構築
  23. 23. EMRがサポートするHadoopスタックHadoop 0.20 Hadoop 0.18Hive 0.5/0.7 Hive 0.4Pig 0.6 Pig 0.3Cascading 1.1 Cascading 1.1
  24. 24. EMRの全体アーキテクチャ Amazon S3 巨大なデータセットや、 膨大なログをアップロードデータ Inputソース Amazon S3 Data Output Amazon Elastic Data Master Task MapReduce Instance Instance Group GroupCode/ Amazon SimpleDB Master ecude Rpa MScript ドーコ ksaT Node s ecivreS edoN L Q e vi H ni t a L gi P g ni d a c s a C ksaT edoN メタデータ のーロフブョジの数複 L Q e vi H ni t a L gi P アドホック Core クエリ Instance Group BI Apps eroC edoN SFD H C B DJ CBDO eroC edoN SFD H EMR Hadoop Cluster
  25. 25. EMRのコンポーネントインスタンスグループ Master, Core, Taskの3つMaster 1台のみ起動。Core Node HDFSのDataNodeを持つ。TaskTrackerも搭載 し、MapReduceTask Node オプション。MapReduce
  26. 26. EMRを支えるAWSプラットフォームAmazon EC2 スケーラブルなコンピュートリソース 柔軟でスケールアップ、スケールアウト可能Amazon S3 スケーラブルなWebストレージサービス 99.999999999% に安価 EMRのデータ及びアプリケーションのアップ ロード先
  27. 27. EMRを支えるAWSプラットフォーム(2) SimpleDB Amazon独自 NoSQLサービス EMRのジョブ状態情報を維持 IAM EMRのアクションを制限可能 • ジョブフローをTerminateできない等 現状ではコマンドラインからのみ。
  28. 28. • • AWS マネージメントコンソール • コマンドライン • REST API
  29. 29. WebAPIおよびSDK PHP Ruby Java …
  30. 30. EMRでのアプリケーション開発Hadoop Streaming Perl、PHPなどのstdin/stdoutで連携 既存Hive SQLライクにクエリが記述可能 アドホックなクエリに最適MapReduceアプリケーション Javaで記述する も高いが、大変な面も。
  31. 31. EMR機能: 稼働中ジョブフローの拡張 : ジョブフローの高速化 ジョブの再起動なしに、ジョブにかけるコストとパフォーマン Job Flow Job Flow Job Flow4ノード 9ノードへ 25ノード 起動 拡張 へ 残り時間 残り時間 14 Hours 7 Hours 残り時間 3 Hours
  32. 32. EMR機能: 稼働中ジョブフローの拡張/伸縮 : 柔軟なデータウェアハウスクラスタ ( vs ) コスト データウェアハウス ( ) データウェアハウス データウェアハウス (通常時) (通常時) 25ノード 9ノードへ9ノード へ 戻す 起動 拡張 増減できるのはタスクノード コアノードは増加のみ
  33. 33. EMR+Spotインスタンス”ランデヴー”EMR アドホックなクエ 分析・解析を促進→サービスやアプリ改善 しかし、コスト的に抑えておきたいEMRとSpotインスタンスのインテグレーション Spotインスタンスって???
  34. 34. M1.XLARGEAmazon EC2 オンデマンド(東京リージョン)の価格は$0.60
  35. 35. EMR機能: Spotインスタンスの活用 Spotインスタンス= : ジョブのランニングコストを抑えたい オンデマンドのm2.xlarge 4ノードで開始 5ノード追加 スポットなしのコスト Job Flow 4 instances *14 hrs * $0.50 = Job Flow $284ノードで Spot スポットありのコスト 起動 5ノード 追加 4 instances *7 hrs * $0.50 = $13 + 残り時間 5 instances * 7 hrs * $0.25 = 残り時間 $8.75 14時間 Total = $21.75 7時間 時間の削減効果: 50% コスト削減効果: ~22%
  36. 36. EMR+Spotの使いどころユースケース Master Core Instance Task Instance Instance Group Group Group長時間稼働のジョ オンデマンド オンデマンド Spotブフローの高速化低コストで実行し Spot Spot Spotたいジョブクリティカルデー オンデマンド オンデマンド Spotタを扱うジョブアプリケーション Spot Spot Spotのテスト
  37. 37. EMR データマイニング/BI ログ解析、クリックストリーム分析、近似分析 データウェアハウスアプリケーション バイオインフォマティクス(遺伝子解析) (モンテカルロ計算等) Webインデックス構築
  38. 38. EMRのロードマップより最新バージョンのHadoopサポート“実験的な”最新版のHadoopサポートAnd more to come…
  39. 39. EMRに関連する都市伝説
  40. 40. Q.オンプレミスHadoopの方が早い vs 仮想化 確か 大事な点はEMRのもたらす柔軟性・拡張性 EMR=スケーラブルなインフラ(EC2/S3/SimpleDB) +スケーラブルなフレームワーク(Hadoop) オンプレミス=固定化したインフラ+スケーラブル なフレームワーク(Hadoop) Hadoopの性質上、スケールアウトが非常に有効 伸縮自在にHadoopを使えるメリット
  41. 41. Q.オンプレミスHadoopの方が安い Hadoopであれば高価なハードウェアは要らない ハードを購入して拡張し続けるのは苦痛 調達の時間的コスト そもそもどれだけ必要かが予測しにくい HDFSのバックアップ バックアップの取得、マスタからロードしたくなる • そこ EMRであれば、S3
  42. 42. Q.Hadoopの面倒はみてくれないのでは?EMRの深刻な問題に対してはパッチを適用 Hadoopの深刻なバグを低コストで回避可能定期的にメンテナンス、バージョンアップ 現状は0.18.3/0.20.2ユーザが差し替えも可能 EMR側の最適化が効かなくなるデメリット は計画的に!アプリケーション/データはユーザが開発 ソリューションプロバイダさんがご支援可能
  43. 43. Q.AWSもリソースが足りなくなるのでは?アマゾン ドット コムが2000 27.6億ドルの企業であった時に必要なキャパシティと同等のものをAWSは毎日追加しています。様々なユースケースを含めてリソース調達 100%に→規模の経済 オンデマンド、リザーブド、そしてSpotでのEMRでも多くのお客様から台数緩和申請 20台を超える場合の緩和申請 • http://aws.amazon.com/jp/contact-us/ec2-request/
  44. 44. (ニア) データ生構造化データ 成・保存、 リアルタイム 並列分析 インデクシ半構造化データ 分析 データ保存 処理 ング、アグ リゲーショ ン データベース層 S3 Hadoop HBase EMR SimpleDB Cassandra MongoDB RDBMS
  45. 45. - EMR - Cluster Spot 拡張 Elastic Hadoop EMR Compute インス Batch HPC タンス 縮退 ProcessingHadoop オンデマンドで Each VM = コスト削減 クラスタの スケーラブデファクト 使える 2 Xeon “Spot 状況に応じて ルな大規模分散 スケーラブルな “Nehalem” price” 拡張または Quad-core 縮退できるフレーム インフラ 基盤ワーク 10G Ethernet 2 GPGPUs
  46. 46. まとめEMRはクラウド上のHadoopサービス 伸縮EMRはHadoopの煩雑さをカバーする 開発者は本来やるべきアプリ(分析、解析等) に集中できるAWSのサービスとのインテグレーション データはS3で無くさない EC2のスケーラビリティを徹底的に活用
  47. 47. Q&A
  48. 48. 次回のほぼ週刊AWSマイスターシリーズは、 12月07日 17:00~~ Amazon Simple Email Service ~ Copyright © 2011 Amazon Web Services
  49. 49. ご参加ありがとう ございました Copyright © 2011 Amazon Web Services

×