Cloudera大阪セミナー 20130219

1,089 views
945 views

Published on

2013/02/19に開催された、大阪セミナーでの資料です。
Cloudera Managerを使用してCDHをインストールするデモ動画はこちら↓
https://vimeo.com/49643526/

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,089
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
23
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Cloudera大阪セミナー 20130219

  1. 1. Clouderaのビッグデータ技術~ HadoopとCDH、Cloudera Manager ~Cloudera株式会社 小林大輔2012/02/19
  2. 2. アジェンダ • Hadoopとは? • Clouderaが提供するHadoopディストリ ビューション • Hadoopの運用について • 運用管理ツールのご紹介2
  3. 3. 自己紹介 • 小林大輔 • カスタマーオペレーションズエンジニアと して テクニカルサポート業務を担当 • daisuke@cloudera.com (小中高を神戸の田舎の方で過ごしました) (いまは両親とも東京に移住済み)3
  4. 4. Hadoopとは?4
  5. 5. データ処理の課題 • ストレージ • データをどこにどう貯めておくか • 処理 • データをどこでどう計算するか5
  6. 6. ストレージの容量 HDD単体容量(GB) 3500 3000 3000 2500 2000 1500 1000 500 200 2.1 0 1997 2004 20126
  7. 7. ストレージの価格 GBあたりのコスト $180 $160 $157 $140 $120 $100 $80 $60 $40 $20 $1.05 $0 $0.05 1997 2004 20127
  8. 8. ディスクの性能 転送レート(MB/s) 250.0 210 200.0 150.0 100.0 50.0 56.5 16.6 0.0 1997 2004 20128
  9. 9. ディスク読み込み時間 • ディスク全体の読み込み時間はむしろ増えてい る 状況といえる 年 容量 時間 1994年 2.1GB 126秒 2004年 200GB 59分 2012年 3000GB 3時間58分9
  10. 10. ディスク読み込み時間 • ディスク全体の読み込み時間はむしろ増えてい る 状況といえる 年 容量 時間 1994年 2.1GB 126秒 2004年 200GB 59分 2012年 3000GB 3時間58分10
  11. 11. つまり、、、 • ディスク容量は増え、価格も下がった • しかし、データを読み書きする速度(I/O) はそれほど改善されていない データアクセスがボトルネックに なる11
  12. 12. 処理 • 一般的に計算処理はCPUに依存 • ムーアの法則 「マイクロプロセッサの性能は18ヶ月 で2倍になる」 • iPhone5のCPUは、1977年に発表された 富士通のスーパーコンピュータ、 FACOM 230-75の20倍12
  13. 13. 処理 • 一般的に計算処理はCPUに依存 • ムーアの法則 「マイクロプロセッサの性能は18ヶ月 で2倍になる」 • iPhone5のCPUは、1977年に発表された 富士通のスーパーコンピュータ、 FACOM 230-75の20倍13
  14. 14. 大規模処理をしようと思ったら、、、 • 現代の大規模処理はマシン間で処理を分散する • 分散処理システムが必要 「開拓時代には重いものを引くのに雄牛が 使われたものですが、一頭の雄牛が丸太を 引くことができなくても、もっと大きな雄牛を 育てようとはしませんでした」 Grace Hopper: 初期の分散コンピューティングの研究者14
  15. 15. 分散処理の問題:データ処理のボトルネッ ク • 少量のデータでは問題ない • 計算サーバーが増えると悪化する • ネットワーク間の通信による15
  16. 16. 分散処理の問題:複雑さ • 可用性 • 部分障害 • 連鎖障害 • データの一貫性 • イベントの同期 • 帯域の制限 • ….. • …..16
  17. 17. 分散処理の問題:複雑さ • 可用性 • 部分障害 • 連鎖障害 • データの一貫性 • イベントの同期 • 帯域の制限 • ….. • ….. そこで登場したのがHadoop17
  18. 18. Hadoopとは何か? • コモディティハードウェアにより構成 される • スケールアウト型のアーキテクチャ • HadoopはGoogleの論文を参考に開発さ れている18
  19. 19. Hadoopでの解決:ディスクのパフォーマン ス • 複数のディスクを並列に使用する • 単一ディスクの転送レートが210MB/s • 3TBのデータ読み込みには約4時間 • 1000台並列であれば210GB/s • 3TBのデータ読み込みには15秒弱20
  20. 20. Hadoopでの解決:複雑さと耐障害性 • MapReduceプログラミングモデルにより処 理を単純化 • 障害が不可避であるという前提で動作 • 大規模なクラスタであれば、1日あた り1台の障害が起こりうる • MTBF(平均故障間隔)が5年、2000台と仮定 • 365日*5年=1825日(ほぼ2000日)22
  21. 21. Hadoopとは? • コモディティハードウェアにより構成 される • スケールアウト型のアーキテクチャ • 耐障害性を備えている • オープンソースのソフトウェア23
  22. 22. Hadoopのコアコンポーネント HDFS MapReduce 自己修復機能を 分散 持つ コンピューティン 分散ストレージ グ・フレームワー ク24
  23. 23. HDFS • Hadoop の分散ファイルシステム • 大量のデータを多数のノードに分散し て保存する • 耐障害性が高く、シーケンシャルアク セスに対するスループットが高い • 低レイテンシのデータアクセスや小さ いファイルへのアクセスは苦手25
  24. 24. HDFS 自己修復機能を持つ高帯域な 1 2 3 HDFS 4 2 1 1 2 1 4 2 3 3 3 5 5 5 4 5 4 HDFSは受け取ったファイルをブロックに分割し、 そのブロックをクラスタ全体にわたって重複して格納します26
  25. 25. HDFS 1つのサーバが壊れても自動複製生きているノード に自動的に複製 し、常に3つのレプリカ 2 1 1 2 1があるようにする 4 2 3 3 3 5 5 4 5 4 1 3 427
  26. 26. MapReduce フレームワーク 1 2 3 MR 4 2 1 1 2 1 4 2 3 3 3 5 5 5 4 5 4多数のノード間で大規模ジョブを並列処理し、処理結果を結合し ます28 ©2011 Cloudera, Inc. All Rights Reserved.
  27. 27. なぜMapReduceか? • データを取得するのではなく、データのある場 所にプログラムを送信して計算する • データをHDFSに保存することで耐障害性の確保 • ノード障害発生時にはそのノードの処理分だけ 再実行29
  28. 28. Hadoopの周辺コンポーネント HadoopとRDBMSとの連携 分散ログストリーミング処理 APACHE Sqoop APACHE Flume クラウドでの分散処理ライブラリ ワークフローとスケジューリング APACHE Whirr APACHE Oozie 分散協調サービス 高級言語とライブラリ APACHE ZooKeeper APACHE Hive, APACHE Pig, APACHE Mahout 分散データベース 大規模分散処理基盤 APACHE HBase APACHE MapReduce 分散ファイルシステム APACHE HDFS30
  29. 29. Hadoopの周辺コンポーネント HadoopとRDBMSとの連携 分散ログストリーミング処理 APACHE Sqoop APACHE Flume • Hadoopを使ってみたい クラウドでの分散処理ライブラリ ワークフローとスケジューリング • コンポーネント毎にソースをダウンロードしてきてビルドする APACHE Whirr APACHE Oozie • 各サーバーにデプロイする 分散協調サービス 高級言語とライブラリ • どのバージョンにどの修正が含まれているのか把握するのは困 APACHE ZooKeeper APACHE Hive, APACHE Pig, APACHE Mahout 難 • 互換性の問題 分散データベース 大規模分散処理基盤 APACHE HBase APACHE MapReduce 分散ファイルシステム APACHE HDFS31
  30. 30. Clouderaが提供するHadoopディストリビューション • CDH(Cloudera’s Distribution including Apache Hadoop) • 主要コンセプトは4つ • 大規模データの蓄積 • 並列処理 • データインテグレーション • 言語とインタフェース • CDHでは、これらのコンセプトを実現するための 様々なコンポーネントを用意32
  31. 31. なぜCDHなのか? CDHはエンタープライズ向けの Hadoopディストリビューションです • CDHには大量のパッチが当てられています • 性能改善・バグ修正パッチ • 互換性を維持できる範囲での機能追加 • CDHはパッケージで管理できます • yum コマンドで簡単にインストール/アップデート可能 • コミュニティ版を使うとコンポーネントごとにダウンロード、 コンパイル、デプロイを行う必要がある33
  32. 32. CDH 開発の歴史 2012/06  高可用性ネームノード(NFS)  複数のデータ処理フレームワーク(MR1とMR2)Q3 2009 Q2 2011  etc… 2012/02009 2010 2011 2012 2012/09 6 2012/09 Q1 2010  高可用性ネームノード(クォーラムベースストレージ)  Hue の Oozie ワークフローGUI と日本語化  統計分析用PigライブラリDataFu  etc…34
  33. 33. Hadoopの運用について35
  34. 34. Hadoopの運用 • 必要になる作業 • クラスタの管理と監視 • 設定 • 設定パラメータ • メンテナンス • パフォーマンス監視 • アクセス管理36
  35. 35. Hadoopの運用 • Hadoopは複雑なシステム • 非常に多くの要素がある • ネットワークやストレージなど、考慮することが多い • 設定項目も膨大 • サポートで問い合わせをうける問題 も、設定ミスによるものであるケース が多い37
  36. 36. Hadoopの運用 • Apache Hadoopは複雑なシステム • Hadoopの運用は難しく、大変 • 非常に多くの要素がある • Clouderaが提供する運用管理ソフトが • ネットワークやストレージなど、考慮することが多い これらの問題/不安を解消します • 設定項目も膨大 = Cloudera Manager • サポートで問い合わせをうける問題も、 設定ミスによるものであるケースが多 い38
  37. 37. Cloudera Managerとは • エンタープライズ規模のHadoopユーザーの必要 に応じて設計されたアプリケーション • Hadoopをノードにインストール • クラスタにホストの追加/削除、サービスを設定 • クラスタの動作を監視 • クラスタの使用量のレポートを生成 • クラスタにアクセスするユーザーを管理 日本語に対応!39
  38. 38. ダッシュボード40
  39. 39. パフォーマンスと使用量のレポート41
  40. 40. CDHをインストールする • Cloudera Managerを使用します • Webアプリケーションなので、操作は すべてブラウザから行います • GUIは日本語化対応済みです42
  41. 41. デモ動画 https://vimeo.com/4964352643
  42. 42. Cloudera Managerの種類 • Free Edition • 無償でダウンロード可能 • インストールと基本的な設定を容易にする • Enterprise Edition • エンタープライズ/商用向けの機能を含んで いる • Free Editionから容易にアップデート可能44
  43. 43. Free Editionの制限 • Free Editionでは50ノードまでサポート • Enterprise Editionは制限なし • Free Editionにはエンタープライズ用の機能 が含まれない • サービス監視 • LDAP/Kerberos統合 • イベント管理とアラート • アクティビティモニタ • レポート機能 • サポートシステムとの統合45
  44. 44. ダウンロードして試してみてください • https://ccp.cloudera.com/display/support /downloads • 弊社Webサイトのトップページから、 「RESOURCES」 -> 「Download Cloudera Manager」 と辿ってください46
  45. 45. 今日話したこと • Hadoopとは? • Clouderaが提供するHadoopディストリ ビューション • Hadoopの運用について • Cloudera Managerのご紹介47
  46. 46. 48

×