• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
 

AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-

on

  • 5,503 views

 

Statistics

Views

Total Views
5,503
Views on SlideShare
4,743
Embed Views
760

Actions

Likes
9
Downloads
260
Comments
0

5 Embeds 760

http://dev.classmethod.jp 727
http://paper.li 25
https://twitter.com 6
http://a0.twimg.com 1
http://s.deeeki.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回- AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回- Presentation Transcript

    • AWSマイスターシリーズ Amazon EMR 2011 11月30日 大谷 晋平(@shot6) ソリューションアーキテクト
    • ほぼ週刊AWSマイスターシリーズへようこそ!~GoToMeeting参加者は、自動的にミュートになっています質問を投げることができます! GoToMeetingチャットの仕組みで、随時書き込んでください お手数ですが、テキストエディタ等に打ち込んでから、 貼り付けててください 最後のQ&Aの時間で、できるだけ回答させて頂きますTwitterのハッシュタグは#jawsugでどうぞ Copyright © 2011 Amazon Web Services
    • Webセミナーほぼ週刊AWSマイスターシリーズ(全11回?) 11/16 第08回 RDS 11/22 第09回 Elastic Beanstalk 11/30 第10回 EMR 12/07 第11回 SES 12/15 第12回 S系全部載せ!SQS/SimpleDB/SNS申し込みサイト http://aws.amazon.com/jp/event_schedule/
    • 好きなAWSのサービスは?
    • ファミリーのロゴ・・・
    • !
    • 。。。
    • プレゼント 寒い年末年始も安心 超限定本日のプレゼントは・・・ AWS特製(社員も もってない)あったか ウインドブレーカー を差し上げます!
    • アジェンダHadoopとはAmazon Elastic MapReduce(EMR)EMR機能EMRに関する都市伝説まとめ
    • Apache Hadoopとは?Big Dataを扱うために: – スケーラブルな分散ストレージ –Hadoop は上記を満たすオープンソース製品 – HDFS(Hadoop Distributed File System) – 巨大なデータを扱えるバッチ システム。 – コモディティサーバに特化。 – MapReduce – る
    • Apache Hadoopとは(2) エンドユーザが受けるメリット – 誰でも入手可能 – スケーラブル – 柔軟性 – 実績も多く、PBオーダまでリニアにスケ ール可能な、分析基盤が誰でも使える –4000台までスケール
    • Hadoop ”スタック”
    • イメージで掴む MapReduce
    • (map ‘( )) ( )(reduce ‘( ))
    • チャンクに分解 MapMap (<a, > , <o, > , <p, > , …) Map (<a’, >, <o’, >, <p’, >, …)(Shuffle ) ReduceReduce (<a’, >, …)
    • RDBMSとHadoopの違いRDBMS Hadoop 事前定義したスキーマ スキーマなし 1台で稼働する事が前提 分散・協調して動く前提 SQLによるアクセス SQLでない複数言語サポート リニアにスケールしない リニアにスケールする 小規模データ 大規模データ 構造化データ 半構造化データ
    • Hadoopの課題Hadoopのスケーラビリティを活かすには購入してしまうと拡張するのも困難。自由にノードを追加・縮小できないデータをHDFSだけに保存するのはリスク データ紛失のリスクがぬぐいきれない
    • Amazon Elastic MapReduce(EMR)
    • Amazon Elastic MapReduceとは Hadoop • 使った分だけなので、低コスト 開発者は分析・解析アプリケーションに集中 • 結果を出すまでの最短パス AWS S3 • データをロストしない仕組み
    • Amazon Elastic MapReduceとは(2) Big Data 解析をトライアンドエラー出来る ユーザ動向にあわせ、アドホックに解析可能 • 収集→保存→解析→アクションの サイクルをもっと早く! AWSの他サービスとのインテグレーション S3との連携機能 JavaやRubyなどのSDK
    • 図で表すと・・・ OS ラックへ 電源とNW HWの購入 インス 設置 を設定 トール Hadoop Hadoop Hadoop 基本設定 インス クラスタ 稼働確認 トール 構築
    • 図で表すと・・・EMRであれば・・・ Hadoop OS ラックへ 電源とNW Hadoop HWの購入 インス 設置 を設定 何ノードで トール あげるか、 Hadoop 稼働確認 Hadoop 指定する Hadoop 基本設定 インス クラスタ 稼働確認 トール 構築
    • EMRがサポートするHadoopスタックHadoop 0.20 Hadoop 0.18Hive 0.5/0.7 Hive 0.4Pig 0.6 Pig 0.3Cascading 1.1 Cascading 1.1
    • EMRの全体アーキテクチャ Amazon S3 巨大なデータセットや、 膨大なログをアップロードデータ Inputソース Amazon S3 Data Output Amazon Elastic Data Master Task MapReduce Instance Instance Group GroupCode/ Amazon SimpleDB Master ecude Rpa MScript ドーコ ksaT Node s ecivreS edoN L Q e vi H ni t a L gi P g ni d a c s a C ksaT edoN メタデータ のーロフブョジの数複 L Q e vi H ni t a L gi P アドホック Core クエリ Instance Group BI Apps eroC edoN SFD H C B DJ CBDO eroC edoN SFD H EMR Hadoop Cluster
    • EMRのコンポーネントインスタンスグループ Master, Core, Taskの3つMaster 1台のみ起動。Core Node HDFSのDataNodeを持つ。TaskTrackerも搭載 し、MapReduceTask Node オプション。MapReduce
    • EMRを支えるAWSプラットフォームAmazon EC2 スケーラブルなコンピュートリソース 柔軟でスケールアップ、スケールアウト可能Amazon S3 スケーラブルなWebストレージサービス 99.999999999% に安価 EMRのデータ及びアプリケーションのアップ ロード先
    • EMRを支えるAWSプラットフォーム(2) SimpleDB Amazon独自 NoSQLサービス EMRのジョブ状態情報を維持 IAM EMRのアクションを制限可能 • ジョブフローをTerminateできない等 現状ではコマンドラインからのみ。
    • • • AWS マネージメントコンソール • コマンドライン • REST API
    • WebAPIおよびSDK PHP Ruby Java …
    • EMRでのアプリケーション開発Hadoop Streaming Perl、PHPなどのstdin/stdoutで連携 既存Hive SQLライクにクエリが記述可能 アドホックなクエリに最適MapReduceアプリケーション Javaで記述する も高いが、大変な面も。
    • EMR機能: 稼働中ジョブフローの拡張 : ジョブフローの高速化 ジョブの再起動なしに、ジョブにかけるコストとパフォーマン Job Flow Job Flow Job Flow4ノード 9ノードへ 25ノード 起動 拡張 へ 残り時間 残り時間 14 Hours 7 Hours 残り時間 3 Hours
    • EMR機能: 稼働中ジョブフローの拡張/伸縮 : 柔軟なデータウェアハウスクラスタ ( vs ) コスト データウェアハウス ( ) データウェアハウス データウェアハウス (通常時) (通常時) 25ノード 9ノードへ9ノード へ 戻す 起動 拡張 増減できるのはタスクノード コアノードは増加のみ
    • EMR+Spotインスタンス”ランデヴー”EMR アドホックなクエ 分析・解析を促進→サービスやアプリ改善 しかし、コスト的に抑えておきたいEMRとSpotインスタンスのインテグレーション Spotインスタンスって???
    • M1.XLARGEAmazon EC2 オンデマンド(東京リージョン)の価格は$0.60
    • EMR機能: Spotインスタンスの活用 Spotインスタンス= : ジョブのランニングコストを抑えたい オンデマンドのm2.xlarge 4ノードで開始 5ノード追加 スポットなしのコスト Job Flow 4 instances *14 hrs * $0.50 = Job Flow $284ノードで Spot スポットありのコスト 起動 5ノード 追加 4 instances *7 hrs * $0.50 = $13 + 残り時間 5 instances * 7 hrs * $0.25 = 残り時間 $8.75 14時間 Total = $21.75 7時間 時間の削減効果: 50% コスト削減効果: ~22%
    • EMR+Spotの使いどころユースケース Master Core Instance Task Instance Instance Group Group Group長時間稼働のジョ オンデマンド オンデマンド Spotブフローの高速化低コストで実行し Spot Spot Spotたいジョブクリティカルデー オンデマンド オンデマンド Spotタを扱うジョブアプリケーション Spot Spot Spotのテスト
    • EMR データマイニング/BI ログ解析、クリックストリーム分析、近似分析 データウェアハウスアプリケーション バイオインフォマティクス(遺伝子解析) (モンテカルロ計算等) Webインデックス構築
    • EMRのロードマップより最新バージョンのHadoopサポート“実験的な”最新版のHadoopサポートAnd more to come…
    • EMRに関連する都市伝説
    • Q.オンプレミスHadoopの方が早い vs 仮想化 確か 大事な点はEMRのもたらす柔軟性・拡張性 EMR=スケーラブルなインフラ(EC2/S3/SimpleDB) +スケーラブルなフレームワーク(Hadoop) オンプレミス=固定化したインフラ+スケーラブル なフレームワーク(Hadoop) Hadoopの性質上、スケールアウトが非常に有効 伸縮自在にHadoopを使えるメリット
    • Q.オンプレミスHadoopの方が安い Hadoopであれば高価なハードウェアは要らない ハードを購入して拡張し続けるのは苦痛 調達の時間的コスト そもそもどれだけ必要かが予測しにくい HDFSのバックアップ バックアップの取得、マスタからロードしたくなる • そこ EMRであれば、S3
    • Q.Hadoopの面倒はみてくれないのでは?EMRの深刻な問題に対してはパッチを適用 Hadoopの深刻なバグを低コストで回避可能定期的にメンテナンス、バージョンアップ 現状は0.18.3/0.20.2ユーザが差し替えも可能 EMR側の最適化が効かなくなるデメリット は計画的に!アプリケーション/データはユーザが開発 ソリューションプロバイダさんがご支援可能
    • Q.AWSもリソースが足りなくなるのでは?アマゾン ドット コムが2000 27.6億ドルの企業であった時に必要なキャパシティと同等のものをAWSは毎日追加しています。様々なユースケースを含めてリソース調達 100%に→規模の経済 オンデマンド、リザーブド、そしてSpotでのEMRでも多くのお客様から台数緩和申請 20台を超える場合の緩和申請 • http://aws.amazon.com/jp/contact-us/ec2-request/
    • (ニア) データ生構造化データ 成・保存、 リアルタイム 並列分析 インデクシ半構造化データ 分析 データ保存 処理 ング、アグ リゲーショ ン データベース層 S3 Hadoop HBase EMR SimpleDB Cassandra MongoDB RDBMS
    • - EMR - Cluster Spot 拡張 Elastic Hadoop EMR Compute インス Batch HPC タンス 縮退 ProcessingHadoop オンデマンドで Each VM = コスト削減 クラスタの スケーラブデファクト 使える 2 Xeon “Spot 状況に応じて ルな大規模分散 スケーラブルな “Nehalem” price” 拡張または Quad-core 縮退できるフレーム インフラ 基盤ワーク 10G Ethernet 2 GPGPUs
    • まとめEMRはクラウド上のHadoopサービス 伸縮EMRはHadoopの煩雑さをカバーする 開発者は本来やるべきアプリ(分析、解析等) に集中できるAWSのサービスとのインテグレーション データはS3で無くさない EC2のスケーラビリティを徹底的に活用
    • Q&A
    • 次回のほぼ週刊AWSマイスターシリーズは、 12月07日 17:00~~ Amazon Simple Email Service ~ Copyright © 2011 Amazon Web Services
    • ご参加ありがとう ございました Copyright © 2011 Amazon Web Services