2012/03/03 @JAWS SUMMIT 2012                                  発表資料エキスパートセッションElastic MapReduce                        ヴェルク...
自己紹介                  津久井浩太郎   @quarterkota■所属 • ヴェルク株式会社 取締役/アーキテクト • JAWS-UG東京⽀部 コアメンバー • ⼀般社団法⼈クラウド利⽤促進機構 技術アドバイザー■好きなA...
はじめる前に質問があります。                 3
QuestionHadoopをオンプレミス環境でセットアップして使った経験のある方、挙手をお願いします。                     4
QuestionEMRを触ったことのある方、挙手をお願いします。                    5
QuestionEMRを触ったことは無いが興味はあるという方、挙手をお願いします。                   6
本日のAgenda1.EMRとは?2.EMRのメリット 3.EMRを触ってみる  4.EMR使用上のご注意    5.最後に                     7
1.EMRとは?           8
EC2とS3のIaaSレイヤを基盤としてHadoopエンジンを取り入れて拡張させたPaaSレイヤの分散処理基盤  Streaming / Hive / Pig /  Custom JAR / Cascading      Apache Hado...
言い換えると・・・好きな時に好きなだけ使える        クラウド型Hadoop基盤          +                    10
本日のAgenda2.EMRのメリット        11
Hadoop自体はOSSで自由に使える優れた分散処理技術                  12
しかし、Hadoopが有効に稼働する        オンプレ環境を作るには・・・少なくとも数十台規模のサーバが必要イニシャルコスト・メンテナンスコスト大バッチ用途が中心になるため、「リソースの空き時間」が発生しがち               ...
実際に導入できるのはリソースが潤沢な一部の企業のみ                  14
しかし、AWSのIaaSであるEC2・S3を処理基盤にする事で手軽にHadoopが利用可能に!                   15
例えば・・・ m1.largeを20ノードで3時間の処理 $0.46 x 20 x 3 = $27.6  ≒ 2346円(85円/$)
3.EMRを触ってみる         17
EMRはユーザからの指示に基づいてジョブフローを生成         Hadoopクラスタ       (EC2インスタンス群)         ジョブフロー               処理内容               Hadoopクラス...
今回はSQLライクに分散処理を制御できるHiveベースのジョブフローをご紹介します。                  19
それでは実際にジョブフローを作成してみます。                  20
ジョブフローの作り方は                    2パターン1.GUI(マネジメントコンソール)からの作成2.CLIからの作成                       21
1.GUI(マネジメントコンソール)からの作成                     22
2.CLIからの作成        23
それでは実際にHiveでジョブフローを操作してみましょう               24
マスタノード上で             直接SELECTを実行し            結果を標準出力させますAmazon S3               HDFS入力データ              Hadoop             ...
Hiveでのデータのやり取りは           S3を入出力の口として             行うのが一般的ですAmazon S3             HDFS入力データ            Hadoop            クラ...
EMR+Hiveの組み合わせによりHadoopの敷居がグッと下がる
4.EMR使用上のご注意
EMRには向き不向きがある!低レイテンシを求められるシステムに単独で用いるのは厳しい
SPOFを考慮すべし!   万が一マスタノードに   障害が発生した場合全ての処理結果が失われる
データ設計に細心の注意を!例えばHiveの場合JOINを連発するとパフォーマンスが急激にダウン
遊びの時間を極力減らす!ジョブフローが「Wait」状態は課金だけ発生するのでもったいない
5.最後に
EMRは大量分散処理を一気に身近なものにする画期的なサービスです      とにかくガンガン使って      情報共有を進めましょう
EMRを1から始めるにはこの本がオススメです
JAWS-UGの分科会としてEMR勉強会もやっています
enjoy life and creation   http://www.velc.co.jp                    37
Upcoming SlideShare
Loading in …5
×

20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

1,541 views

Published on

2012年3月3日のJAWS-UG SUMMIT 2012のエキスパートセッションElastic MapReduce編です。

デモベースのセッションのため資料だけでは伝わりにくい部分があります。
ご了承ください。

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,541
On SlideShare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
17
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

  1. 1. 2012/03/03 @JAWS SUMMIT 2012 発表資料エキスパートセッションElastic MapReduce ヴェルク株式会社 津久井浩太郎(@quarterkota) http://www.velc.co.jp 1
  2. 2. 自己紹介 津久井浩太郎 @quarterkota■所属 • ヴェルク株式会社 取締役/アーキテクト • JAWS-UG東京⽀部 コアメンバー • ⼀般社団法⼈クラウド利⽤促進機構 技術アドバイザー■好きなAWSサービス EMR:何よりも⼿軽さがスゴイ RDS:イケてるバックアップに命を救われたことがある■経歴 ITコンサル(フューチャーアーキテクト) → インターネット広告系ITベンチャー(サイテック) → 独⽴して現在2期目 2
  3. 3. はじめる前に質問があります。 3
  4. 4. QuestionHadoopをオンプレミス環境でセットアップして使った経験のある方、挙手をお願いします。 4
  5. 5. QuestionEMRを触ったことのある方、挙手をお願いします。 5
  6. 6. QuestionEMRを触ったことは無いが興味はあるという方、挙手をお願いします。 6
  7. 7. 本日のAgenda1.EMRとは?2.EMRのメリット 3.EMRを触ってみる 4.EMR使用上のご注意 5.最後に 7
  8. 8. 1.EMRとは? 8
  9. 9. EC2とS3のIaaSレイヤを基盤としてHadoopエンジンを取り入れて拡張させたPaaSレイヤの分散処理基盤 Streaming / Hive / Pig / Custom JAR / Cascading Apache Hadoop PaaS Amazon Amazon S3 EC2 IaaS 9
  10. 10. 言い換えると・・・好きな時に好きなだけ使える クラウド型Hadoop基盤 + 10
  11. 11. 本日のAgenda2.EMRのメリット 11
  12. 12. Hadoop自体はOSSで自由に使える優れた分散処理技術 12
  13. 13. しかし、Hadoopが有効に稼働する オンプレ環境を作るには・・・少なくとも数十台規模のサーバが必要イニシャルコスト・メンテナンスコスト大バッチ用途が中心になるため、「リソースの空き時間」が発生しがち 13
  14. 14. 実際に導入できるのはリソースが潤沢な一部の企業のみ 14
  15. 15. しかし、AWSのIaaSであるEC2・S3を処理基盤にする事で手軽にHadoopが利用可能に! 15
  16. 16. 例えば・・・ m1.largeを20ノードで3時間の処理 $0.46 x 20 x 3 = $27.6 ≒ 2346円(85円/$)
  17. 17. 3.EMRを触ってみる 17
  18. 18. EMRはユーザからの指示に基づいてジョブフローを生成 Hadoopクラスタ (EC2インスタンス群) ジョブフロー 処理内容 Hadoopクラスタのサイズ など 18
  19. 19. 今回はSQLライクに分散処理を制御できるHiveベースのジョブフローをご紹介します。 19
  20. 20. それでは実際にジョブフローを作成してみます。 20
  21. 21. ジョブフローの作り方は 2パターン1.GUI(マネジメントコンソール)からの作成2.CLIからの作成 21
  22. 22. 1.GUI(マネジメントコンソール)からの作成 22
  23. 23. 2.CLIからの作成 23
  24. 24. それでは実際にHiveでジョブフローを操作してみましょう 24
  25. 25. マスタノード上で 直接SELECTを実行し 結果を標準出力させますAmazon S3 HDFS入力データ Hadoop クラスタ 中間データ 出力データ 25
  26. 26. Hiveでのデータのやり取りは S3を入出力の口として 行うのが一般的ですAmazon S3 HDFS入力データ Hadoop クラスタ 中間データ出力データ 26
  27. 27. EMR+Hiveの組み合わせによりHadoopの敷居がグッと下がる
  28. 28. 4.EMR使用上のご注意
  29. 29. EMRには向き不向きがある!低レイテンシを求められるシステムに単独で用いるのは厳しい
  30. 30. SPOFを考慮すべし! 万が一マスタノードに 障害が発生した場合全ての処理結果が失われる
  31. 31. データ設計に細心の注意を!例えばHiveの場合JOINを連発するとパフォーマンスが急激にダウン
  32. 32. 遊びの時間を極力減らす!ジョブフローが「Wait」状態は課金だけ発生するのでもったいない
  33. 33. 5.最後に
  34. 34. EMRは大量分散処理を一気に身近なものにする画期的なサービスです とにかくガンガン使って 情報共有を進めましょう
  35. 35. EMRを1から始めるにはこの本がオススメです
  36. 36. JAWS-UGの分科会としてEMR勉強会もやっています
  37. 37. enjoy life and creation http://www.velc.co.jp 37

×