• Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,312
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
9
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Advanced Tech Night No.01 Hadoop vs Amazon EMR 2011/04/22 Acroquest Technology 株式会社 橋本 拓也
  • 2. はじめに1. 簡単に自己紹介。2. Acroquest Technology テクニカルコンサルタント 橋本 拓也3. JaTS(Javaトラブルシューティング)を中心 に、プロジェクトの障害解析・障害回避を 仕事としています。4. Hadoopは個人的に注目して触っています。 それを自慢げに話していたら、プロジェク トでHadoop使うことになってオタオタしま した。 1
  • 3. どんな仕事をしているか?JaTS never ending story(http://www.acroquest.co.jp/jats_novel/index.html) より抜粋 2
  • 4. 目的1. Hadoopと比べていまいち知名度の低い Amazon EMR(Elastic Map Reduceの略)が どんなものだか、調べてみました。2. 「Hadoopをやっと使えるようになったと 思ったら、また変なのが出てきた!」と プレスリリースで思ったので、何が凄いの か試してみました。 3
  • 5. この発表の前提1. 私は身内びいきな傾向が強いので、 「Hadoopサイコー、 後発のAmazon EMRなん てっ!」 というのが大前提です。  実はこの後発というのさえ間違いなのです が・・・2. そのため、大分偏った評価になるかもしれ ませんが、ご了承を。 4
  • 6. 内容1. 各製品の歴史2. Elastic MapReduceの導入3. EMR vs Hadoopの比較4. EMR, Hadoopはこんな人におすすめ 5
  • 7. 各製品の歴史(Hadoop)1. 言わずとしれたJavaの分散処理環境ですね。2. 2005年ごろから開発が始まり、現在に至る。3. Yahoo版と、Cloudera版の配布形態があり、 以前は違いが結構あった。  最近はバイナリ的には殆ど同じ、サポートの違 いにのみになりつつあるようですね。4. 「スケールアウトを手軽にしたいシステム ならもうHadoop一択でいいんじゃない か!」・・・と私は思ってます。 6
  • 8. 各製品の歴史(Elastic Map Reduce)1. 端的に言えば、Elastic Map Reduce(以下 EMR)はHadoopをEC2で簡単に使える ようにしたサービスです。2. 実はEMRは2009年から提供されています。3. Hadoop Summit 2010で発表された機能追 加で一気に使えるサービスになりました。 ① Hadoop 0.20へバージョンアップ ② クラスタを動作させたままでのインスタンスの 増減可能 7
  • 9. Elastic MapReduce導入1. Elastic MapReduceは、Amazon EC2/S3と 深く結びついているため、まずここらへん が使えるようにならないといけません。  Amazon S3はEMRのデータ置き場になるため、 利用が(おそらく)必須です。  Amazon S3に巨大なデータを入れるのが思い の他時間がかかるので注意が必要です。2. 課金のためのクレジットカード番号と、電 話番号なんかの社会的な個人認証方式が必 要になりますので、ニート的な人は注意。 8
  • 10. まとめ Elastic Map Reduce ≒Amazon EC2上のHadoop 9
  • 11. Advanced Tech Night No.01 Hadoop vs Amazon EMR ご清聴ありがとうございまし た! 10
  • 12. Advanced Tech Night No.01 Hadoop vs Amazon EMR 某先輩が怒るので、 真面目に比較します。 11
  • 13. EMR vs Hadoopの比較No 内容 EMR Hadoop1 導入コスト ○ほぼ無料。登録が手間。 ×ハードウェアのセットアッ プが必要。2 対応言語 ○Java, Ruby, Python, C++な ◎Hadoop Streaming, Pipes ど、あらかじめ用意された言 を使えば何でもあり。 語3 構成の柔軟性 ○EC2で提供される構成を手 ×なんでもできますが、それ 軽に選択 相当のお金がかかります。4 スケールアッ ○スケールアップは基本無理。 ◎スケールアップ・アウトと プ スケールアウトは簡単。 も自由にできる。 スケールアウ ト5 運用コスト ×使えば使うだけ増加します。 ○基本的に電気代ぐらい。6 性能 ×思いの他速い。 ○用意するハードウェアス 重い処理にはノード追加で対 ペックによりけり。 応。7 耐障害性 ○Amazonが守ってくれるかも ×マシンが壊れたらそれでま 12
  • 14. EMR vs Hadoopの比較~導入コスト EMR課金は思いの他安い。どんなに失敗しても1000円いかないはず。EC2のアカウントがあれば、ものの数分で動作環境が整う手軽さ。マシンを用意しなくても良く、Hadoopのインストールに手間取ることもない。Hadoopハードウェアを用意するところから始まるが、普通PCの自作大好きだから問題なし!Hadoopのインストールではまっても、「経験値があがった」と思って前向きに頑張る! 13
  • 15. EMR vs Hadoopの比較~対応言語 EMR主にRuby, Javaを推奨している?利用例もこの2つが多い。それ以外にもHadoop Streamingが使え、C++、Python、PHPなども利用が可能になっている。HadoopHadoop Streaming, Hadoop Pipesを使って自由に言語を組み合わせられる。設定に困ったら「教えてgoo」とかで生温かくサポートしてもらおう。 14
  • 16. EMR vs Hadoopの比較~構成の柔軟性 EMRインスタンスのスペックをカスタマイズはできないが、EC2で提供されている様々なサービスを利用可能。特に手軽にNVIDIA Teslaがつかえる"Cluster GPU Instance"との組み合わせは、魅力的。 Hadoopインスタンスのスペックを自由にカスタマイズできる。IOボトルネックならSSD導入も可能。高スペックなパーツの組み合わせを想像して興奮できる! 15
  • 17. EMR vs Hadoopの比較~スケールアップ・スケールアウト EMRスケールアウトでの性能向上を得意としています。クラスタを再起動せずにインスタンスを追加できるのは、重い処理をしている際や、想定外のデータ量増加に効果的。逆にスケールアップは実質不可能。Hadoopスケールアウトでもスケールアップでも自由にできます。皆さんの居住スペースや作業スペースが減ってもキニシナイ! 16
  • 18. EMR vs Hadoopの比較~運用コスト EMR数Gbyte程度のデータ処理なら数百円程度。想像よりもお金はかかりませんでした。定常的なバッチ処理やインスタンスの過剰追加で、"EMR bunkrupt"する人たちがいるので、運用時には注意が必要。Hadoop電気代くらい?あと掃除の手間。ハードウェアが壊れたりするとコストが跳ね上がるけれど、まあ、それも歓びのうち。 17
  • 19. EMR vs Hadoopの比較~運用コストちなみに、EC2もEMRも、どこのリージョンを使うかによって、コストと出来ることが変わってきます。 GPGPU リージョン EC2コスト EMRコスト 使える? 米国東部 $0.085/時間 $0.015/時間 ○ 米国西部 $0.095/時間 $0.015/時間 EU $0.095/時間 $0.015/時間 シンガポー $0.095/時間 $0.015/時間 ル 東京 $0.100/時間 ※コストはそれぞれ最少規模の金額です。 $0.015/時間シンガポールは分かりませんが、米国東部とのネットワーク遅延は思いの他大きかったです。(私が評価した時は東京リージョンがありませんでした)そう考えると、少々高くても東京リージョンがお勧めですね。 18
  • 20. EMR vs Hadoopの比較~性能面 EMR現状でも手元のマシンと比べて特段遅いとは感じない。時間がたてば、ノードの性能が勝手に上昇していくクラウドの優位性があります。クラウド上のサービスのため、ネットワーク帯域・遅延に影響を受けやすいです。特に大量データのアップロードとか。HadoopMap/Reduceを立ち上げるごとに巨大データをロードするとか、単一ノードに高い負荷がかかる、非常に重いロジックを処理する際に、最適な環境を構築できます。 19
  • 21. EMR vs Hadoopの比較~耐障害性 EMRAmazonのデータセンタがつぶれない限りは問題ないはず。リージョンを移し替えることも比較的容易にできる。Hadoop地震でラックが倒れてきたら、あなたの腕力でカバー!計画停電も自家発電で対抗可能。 20
  • 22. EMRはこんな人におすすめ!1. とにかくスモールスタートで始めたい  Amazon EC2を利用する準備があれば、すぐに 使い始められます。2. マシンを物理的に何台も用意したくない人  インスタンスの増減が数クリックで実現できま す。3. クラウド上で完結する処理を主に扱う人4. 重い処理を定常的に行わない人 21
  • 23. Hadoopはこんな人におすすめ!1. 運用コストで思いもよらない金額を請求さ れたくない人。そういうのが見積もれない 人2. 扱うデータをクラウド上に置きたくない・ 置けない人  処理結果を高頻度でDBに反映させる必要性あ り3. スケールアウトより、スケールアップをは かる必要がある人  ノードで実行するロジックのCPU負荷が高い4. 既存システムとMapReduce処理を連携させ 22
  • 24. まとめ1. EMRはHadoopをEC2上で使えるようにし たもの。2010年の機能追加で使い勝手が一 気によくなりました。2. EMRは思ったよりも低コストで運用できる。 今回のセミナー用の調査でも1000円ぐらい・・のはず。3. 個人でも、少しお金がかかっても手軽に使 いたいならばEMR、とことん自分で作りこ みたいならHadoopと住み分けられる・・・ はず。 私は手元で全部動かしたいので、 ローカルでHadoop使うと思いますが・・・ 23
  • 25. Advanced Tech Night No.01 Hadoop vs Amazon EMRご清聴ありがとうございました。 本当に。 24