More Related Content
PDF
PPTX
PDF
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編 PDF
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化 PDF
PDF
PPTX
PDF
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演) Similar to ATN No.1 Hadoop vs Amazon EMR
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR) PDF
AWS Black Belt Online Seminar 2016 Amazon EMR PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall PPTX
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法 PDF
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回- PDF
20111130 10 aws-meister-emr_long-public PDF
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce PDF
AWS Black Belt Techシリーズ Amazon EMR PDF
TokyoWebminig カジュアルなHadoop PPTX
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015 PPTX
PDF
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014... PDF
PDF
PPTX
Hadoop / Elastic MapReduceつまみ食い PPTX
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜 PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) PDF
AWS Black Belt Online Seminar Amazon EC2 More from AdvancedTechNight
PDF
CSS3Rendererを使ってiOSでもサクサク3D PDF
D3.jsと学ぶVisualization(可視化)の世界 PDF
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう PDF
PDF
PDF
全部入り!WGPで高速JavaScript+HML5体験 PDF
PDF
TypeScriptのススメ ~JavaエンジニアのためのJava(like)Script PDF
PDF
単なるキャッシュじゃないよ!?infinispanの紹介 PDF
PDF
PDF
分散ストリーム処理フレームワーク Apache S4 PDF
Twitterのリアルタイム分散処理システム「Storm」入門 demo PDF
Twitterのリアルタイム分散処理システム「Storm」入門 PDF
ログ収集フレームワークの新バージョン「FlumeNG」 PPTX
Hadoop scr第7回 hw2011フィードバック PPTX
PPTX
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち PDF
ATN No.2 大阪から来たJavaPuzzlers Recently uploaded
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):東京大学情報基盤センター テーマ1/2/3「Society5.0の実現を目指す『計算・データ・学習... PPTX
PDF
第25回FA設備技術勉強会_自宅で勉強するROS・フィジカルAIアイテム.pdf PDF
安価な ロジック・アナライザを アナライズ(?),Analyze report of some cheap logic analyzers PDF
visionOS TC「新しいマイホームで過ごすApple Vision Proとの新生活」 PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料) ATN No.1 Hadoop vs Amazon EMR
- 1.
- 2.
はじめに
1. 簡単に自己紹介。
2. AcroquestTechnology
テクニカルコンサルタント
橋本 拓也
3. JaTS(Javaトラブルシューティング)を中心
に、プロジェクトの障害解析・障害回避を
仕事としています。
4. Hadoopは個人的に注目して触っています。
それを自慢げに話していたら、プロジェク
トでHadoop使うことになってオタオタしま
した。 1
- 3.
- 4.
目的
1. Hadoopと比べていまいち知名度の低い
Amazon EMR(Elastic Map Reduceの略)が
どんなものだか、調べてみました。
2. 「Hadoopをやっと使えるようになったと
思ったら、また変なのが出てきた!」と
プレスリリースで思ったので、何が凄いの
か試してみました。
3
- 5.
- 6.
内容
1. 各製品の歴史
2. Elastic MapReduceの導入
3. EMR vs Hadoopの比較
4. EMR, Hadoopはこんな人におすすめ
5
- 7.
- 8.
各製品の歴史(Elastic Map Reduce)
1.端的に言えば、Elastic Map Reduce(以下
EMR)はHadoopをEC2で簡単に使える
ようにしたサービスです。
2. 実はEMRは2009年から提供されています。
3. Hadoop Summit 2010で発表された機能追
加で一気に使えるサービスになりました。
① Hadoop 0.20へバージョンアップ
② クラスタを動作させたままでのインスタンスの
増減可能
7
- 9.
Elastic MapReduce導入
1. ElasticMapReduceは、Amazon EC2/S3と
深く結びついているため、まずここらへん
が使えるようにならないといけません。
Amazon S3はEMRのデータ置き場になるため、
利用が(おそらく)必須です。
Amazon S3に巨大なデータを入れるのが思い
の他時間がかかるので注意が必要です。
2. 課金のためのクレジットカード番号と、電
話番号なんかの社会的な個人認証方式が必
要になりますので、ニート的な人は注意。
8
- 10.
- 11.
- 12.
- 13.
EMR vs Hadoopの比較
No 内容 EMR Hadoop
1 導入コスト ○ほぼ無料。登録が手間。 ×ハードウェアのセットアッ
プが必要。
2 対応言語 ○Java, Ruby, Python, C++な ◎Hadoop Streaming, Pipes
ど、あらかじめ用意された言 を使えば何でもあり。
語
3 構成の柔軟性 ○EC2で提供される構成を手 ×なんでもできますが、それ
軽に選択 相当のお金がかかります。
4 スケールアッ ○スケールアップは基本無理。 ◎スケールアップ・アウトと
プ スケールアウトは簡単。 も自由にできる。
スケールアウ
ト
5 運用コスト ×使えば使うだけ増加します。 ○基本的に電気代ぐらい。
6 性能 ×思いの他速い。 ○用意するハードウェアス
重い処理にはノード追加で対 ペックによりけり。
応。
7 耐障害性 ○Amazonが守ってくれるかも ×マシンが壊れたらそれでま
12
- 14.
EMR vs Hadoopの比較~導入コスト
EMR
課金は思いの他安い。どんなに失敗しても1000円いかないは
ず。
EC2のアカウントがあれば、ものの数分で動作環境が整う手
軽さ。マシンを用意しなくても良く、Hadoopのインストール
に手間取ることもない。
Hadoop
ハードウェアを用意するところから始まるが、普通PCの自作
大好きだから問題なし!
Hadoopのインストールではまっても、「経験値があがった」
と思って前向きに頑張る!
13
- 15.
EMR vs Hadoopの比較~対応言語
EMR
主にRuby, Javaを推奨している?利用例もこの2つが多い。
それ以外にもHadoop Streamingが使え、C++、Python、PHP
なども利用が可能になっている。
Hadoop
Hadoop Streaming, Hadoop Pipesを使って自由に言語を組み
合わせられる。
設定に困ったら「教えてgoo」とかで生温かくサポートしても
らおう。
14
- 16.
EMR vs Hadoopの比較~構成の柔軟性
EMR
インスタンスのスペックをカスタマイズはできないが、EC2
で提供されている様々なサービスを利用可能。特に手軽に
NVIDIA Teslaがつかえる"Cluster GPU Instance"との組み合わ
せは、魅力的。
Hadoop
インスタンスのスペックを自由にカスタマイズできる。IOボ
トルネックならSSD導入も可能。
高スペックなパーツの組み合わせを想像して興奮できる!
15
- 17.
EMR vs Hadoopの比較~スケールアップ・スケールアウ
ト
EMR
スケールアウトでの性能向上を得意としています。
クラスタを再起動せずにインスタンスを追加できるのは、重
い処理をしている際や、想定外のデータ量増加に効果的。
逆にスケールアップは実質不可能。
Hadoop
スケールアウトでもスケールアップでも自由にできます。
皆さんの居住スペースや作業スペースが減ってもキニシナ
イ!
16
- 18.
EMR vs Hadoopの比較~運用コスト
EMR
数Gbyte程度のデータ処理なら数百円程度。想像よりもお金は
かかりませんでした。
定常的なバッチ処理やインスタンスの過剰追加で、
"EMR bunkrupt"する人たちがいるので、運用時には注意が必
要。
Hadoop
電気代くらい?あと掃除の手間。
ハードウェアが壊れたりするとコストが跳ね上がるけれど、
まあ、それも歓びのうち。
17
- 19.
- 20.
EMR vs Hadoopの比較~性能面
EMR
現状でも手元のマシンと比べて特段遅いとは感じない。時間
がたてば、ノードの性能が勝手に上昇していくクラウドの優
位性があります。クラウド上のサービスのため、ネットワー
ク帯域・遅延に影響を受けやすいです。特に大量データの
アップロードとか。
Hadoop
Map/Reduceを立ち上げるごとに巨大データをロードするとか、
単一ノードに高い負荷がかかる、非常に重いロジックを処理
する際に、最適な環境を構築できます。
19
- 21.
EMR vs Hadoopの比較~耐障害性
EMR
Amazonのデータセンタがつぶれない限りは問題ないはず。
リージョンを移し替えることも比較的容易にできる。
Hadoop
地震でラックが倒れてきたら、あなたの腕力でカバー!
計画停電も自家発電で対抗可能。
20
- 22.
- 23.
Hadoopはこんな人におすすめ!
1. 運用コストで思いもよらない金額を請求さ
れたくない人。そういうのが見積もれない
人
2. 扱うデータをクラウド上に置きたくない・
置けない人
処理結果を高頻度でDBに反映させる必要性あ
り
3. スケールアウトより、スケールアップをは
かる必要がある人
ノードで実行するロジックのCPU負荷が高い
4. 既存システムとMapReduce処理を連携させ
22
- 24.
まとめ
1. EMRはHadoopをEC2上で使えるようにし
たもの。2010年の機能追加で使い勝手が一
気によくなりました。
2. EMRは思ったよりも低コストで運用できる。
今回のセミナー用の調査でも1000円ぐらい・・のはず。
3. 個人でも、少しお金がかかっても手軽に使
いたいならばEMR、とことん自分で作りこ
みたいならHadoopと住み分けられる・・・
はず。 私は手元で全部動かしたいので、
ローカルでHadoop使うと思いますが・・・
23
- 25.