Hadoopを40分で理解する #cwt2013

  • 4,802 views
Uploaded on

#cwt2013 Clouderaの川崎 @kernel023 によるHadoop入門のスライドを公開しました。ビッグデータとは何か、なぜHadoopが必要なのかについて分かりやすく紹介しています

#cwt2013 Clouderaの川崎 @kernel023 によるHadoop入門のスライドを公開しました。ビッグデータとは何か、なぜHadoopが必要なのかについて分かりやすく紹介しています

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
4,802
On Slideshare
0
From Embeds
0
Number of Embeds
8

Actions

Shares
Downloads
59
Comments
0
Likes
8

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Hadoopを40分で理解する Cloudera株式会社 エデュケーションサービス   川崎 達夫  <kawasaki@cloudera.com>   2013年11月7日   1
  • 2. About  Me   •  川崎  達夫(かわさき  たつお)   •  シニアインストラクター&研修全般業務を担当   email:  kawasaki@cloudera.com   twi>er:  @kernel023   •  •  2
  • 3. Hadoop オペレーションの日本語訳が発売予定です   •  •  •  •  •  •  11月下旬発売 通称「パカ」本  (?) Cloudera  の Eric  Sammer  著 翻訳は安心の玉川竜司さん レビューを手伝ってました 日本語版のみの付録も執筆!
  • 4. Cloudera Impala の⽇日本語フリーブック •  •  •  オライリーの「インパラ本」、日本語PDF版が無償公開される予定です! Cloudera  の John  Russell  著 Hadoop、HBase、Hadoopオペレーション、 プログラミングHiveなどを翻訳された 玉川竜司さんが翻訳! 「これまでClouderaの皆さ んにご尽力いただいた翻訳 レビューへの感謝の気持ち として、Cloudera World Tokyo開催のお祝いに翻訳寄 贈します!」
  • 5. 本⽇日のアジェンダ   •  •  •  •  5 ビッグデータ   ビッグデータを扱う上での課題   Hadoop   よくある質問  
  • 6. ビッグデータ Hadoopが存在している根拠 8
  • 7. ビッグデータの間違った理理解   STRUCTURED  DATA  –  20%   BIGDATA != SIZE 9
  • 8. データ爆発   1兆ギガバイトのデータが   2011年に生成された… 90%以上が非構造データ 約50京(500x1000兆)のファイル 2年毎に倍増 STRUCTURED  DATA  –  20%   10
  • 9. ビッグデータの定義   量 •  種類(多様性) •  生成される速度 •  11
  • 10. 量 —  Cisco  Systems  2013/5   12
  • 11. 種類 13
  • 12. 速度 14
  • 13. ビッグデータは必要か?   •  •  現在、データは⾮非常に速いペースで増えている   そのうちの90%は⾮非構造データ   •  15 従来の仕組みでこのようなデータを扱うことは難しい  
  • 14. ビッグデータのチャレンジ   •  •  •  16 データの「量」「種類」「速さ」をコスト効率率率よく 管理理   構造データと構造化データから価値を導く   コンテキストの変換への対応と新しいデータソース と種類を統合
  • 15. Q.  統計学があればビッグデータは不不要か?   •  「世界がもし100⼈人の村だったら」     17 h>p://www.jackhagley.com/filter/personal/896192   If  the  Twi>er  community  was  100  people...   h>p://www.flickr.com/photos/25541021@N00/3706760751/
  • 16. A.必ずしもそうではありません   •  18 「ウォーリーを探せ」
  • 17. A.  全てのデータがあれば、、   •  19 サンプリングや粒粒度度を切切り替えるためには、元にな る全データが必要です   Photo:  Kris  Krug   h>p://www.flickr.com/photos/kk/9240320949/
  • 18. ビッグデータを扱う上での課題 既存システムの制約 20
  • 19. ビッグデータ   •  •  21 どうやって保存するか   どうやって処理理するか  
  • 20. ⼤大量量なデータの保存   課題   •  1)データは増え続け る   •  2)読み書きの速度度   •  3)コスト   •  4)耐障害性   22  
  • 21. ⼤大量量なデータの処理理   •  伝統的に、計算処理理は   CPUに依存する   初期のソリューション       -­‐>  巨⼤大なコンピュータ             ⾼高速なCPU             ⼤大量量のメモリ   •  23
  • 22. ⼤大量量なデータの処理理   •  より良良いソリューション   -­‐>  ⼀一つのジョブを複数の       コンピュータで計算する           分散システム 24
  • 23. 分散システム   •  25 データを共有ディスクに保存し分散処理理を⾏行行う  
  • 24. 分散システムの課題   •  •  •  ディスクアクセスがボトルネック   障害発⽣生時の処理理が複雑   スケーラビリティ   ボトル ネック 障害 26
  • 25. Hadoop   Googleの技術に由来   27
  • 26. (再)分散システムの課題   •  •  •  ディスクアクセスがボトルネック   障害発⽣生時の処理理が複雑   スケーラビリティ   ボトル ネック 障害 28
  • 27. Googleでのアプローチ   •  29 データは分散して保存しておき、処理理を⾏行行う  
  • 28. Apache  Hadoop™   •  Googleが公開した論論⽂文を参考に開発された   オープンソースソフトウェア   Doug  Cu^ng   Chief  Architect  @Cloudera   30
  • 29. Apache  Hadoop™   •  32 データストレージと処理理のための   オープンソースプラットフォーム ü スケーラブル   ü 耐障害性   ü 分散される  
  • 30. Apache  Hadoop™   •  HDFS  –  ストレージ   •  ⼤大量量のデータが保存できる   •  •  •  Yahoo!では合計350PB、FaceBookも100PB超   耐障害性   スケーラブル   1台〜~数千台   •  MapReduce  -­‐  ⼤大量量なデータを分散処理理できる   •  •  •  33 数多くのサーバで分散して処理理(数千台も可能)   耐障害性   汎⽤用的なプログラム⾔言語で記述できる  
  • 31. Hadoopのアーキテクチャ   •  マスター/スレーブ   マスター (高可用性可能) 34 スレーブ群(1∼数千台)
  • 32. ⼤大量量なデータの保存   データはあるサイズに       分割/分散して保存   •  データは複製して配置   マスター スレーブ群 •  72.165.33.132  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/finance     28.114.157.122  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /item/sports/2605   52.93.117.198  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electron   168.90.228.205  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "POST  /search/?c=Music   28.42.27.49  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electronic   192.120.64.138  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books?f   156.189.222.57  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/network   164.219.215.208  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books     84.42.208.90  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3186   164.39.210.117  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/garden/4484   196.144.35.85  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   80.78.35.71  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/35   80.174.161.70  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/garden  H   192.186.87.52  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/games  HT   132.186.183.184  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3   212.27.25.133  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   32.21.118.159  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/electron   56.99.155.75  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/books  HTT   196.63.29.59  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/games  HTT   24.87.189.150  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/somware   38 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A 168.90.228.205  -­‐  -­‐  [04/Nov/   28.42.27.49  -­‐  -­‐  [04/Nov/201   192.120.64.138  -­‐  -­‐  [04/Nov/ 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A 156.189.222.57  -­‐  -­‐  [04/Nov/2   164.219.215.208  -­‐  -­‐  [04/Nov/   84.42.208.90  -­‐  -­‐  [04/Nov/20 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ 164.39.210.117  -­‐  -­‐  [04/Nov/   196.144.35.85  -­‐  -­‐  [04/Nov/2   80.78.35.71  -­‐  -­‐  [04/Nov/201 A
  • 33. ⼤大量量なデータの保存   •  •  容易易に容量量を増やせる   構造/⾮非構造データ   マスター スレーブ群 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ 168.90.228.205  -­‐  -­‐  [04/Nov/   28.42.27.49  -­‐  -­‐  [04/Nov/201   192.120.64.138  -­‐  -­‐  [04/Nov/ 156.189.222.57  -­‐  -­‐  [04/Nov/2   164.219.215.208  -­‐  -­‐  [04/Nov/   84.42.208.90  -­‐  -­‐  [04/Nov/20 164.39.210.117  -­‐  -­‐  [04/Nov/   196.144.35.85  -­‐  -­‐  [04/Nov/2   80.78.35.71  -­‐  -­‐  [04/Nov/201 39
  • 34. ⼤大量量なデータの保存  –  障害時   •  •  データは複数箇所に   あるのでロストしない ⾃自動で複製される   72.165.33.132  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/finance     28.114.157.122  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /item/sports/2605   52.93.117.198  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electron   168.90.228.205  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "POST  /search/?c=Music   28.42.27.49  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electronic   192.120.64.138  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books?f   156.189.222.57  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/network   164.219.215.208  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books     84.42.208.90  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3186   164.39.210.117  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/garden/4484   196.144.35.85  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   80.78.35.71  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/35   80.174.161.70  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/garden  H   192.186.87.52  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/games  HT   132.186.183.184  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3   212.27.25.133  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   32.21.118.159  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/electron   56.99.155.75  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/books  HTT   196.63.29.59  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/games  HTT   24.87.189.150  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/somware   40 マスター スレーブ群 ①障害 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ ②複製指示 ③複製 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A A
  • 35. ⼤大量量なデータの処理理  -­‐  MapReduce   •  分散されたデータを   それぞれのサーバで   処理理する(Map)   JOB マスター スレーブ群 Task 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ Task 168.90.228.205  -­‐  -­‐  [04/Nov/   28.42.27.49  -­‐  -­‐  [04/Nov/201   192.120.64.138  -­‐  -­‐  [04/Nov/ Task 156.189.222.57  -­‐  -­‐  [04/Nov/2   164.219.215.208  -­‐  -­‐  [04/Nov/   84.42.208.90  -­‐  -­‐  [04/Nov/20 Task 164.39.210.117  -­‐  -­‐  [04/Nov/   196.144.35.85  -­‐  -­‐  [04/Nov/2   80.78.35.71  -­‐  -­‐  [04/Nov/201 45
  • 36. ⼤大量量なデータの処理理  -­‐  MapReduce   •  分散処理理した結果を   集約する(Reduce)   マスター スレーブ群 Task 72.165.33.132,  1   72.165.33.132,  1   72.165.33.132,  1   72.165.33.145,  1 168.90.228.205,1   168.90.228.205,1   192.120.64.138,1 156.189.222.57,1   156.189.222.57,1   164.219.215.208,1   164.39.210.117,1   164.39.210.117,1   164.39.210.118.1   46
  • 37. ⼤大量量なデータの処理理  -­‐  MapReduce   •  障害もうまく扱って   くれる   (開発者は考慮しなくてOK)   マスター TaskB スレーブ群 TaskA 72.165.33.132,  1   72.165.33.132,  1   72.165.33.132,  1   72.165.33.145,  1 TaskB 168.90.228.205,1   168.90.228.205,1   192.120.64.138,1 TaskC 156.189.222.57,1   156.189.222.57,1   164.219.215.208,1   TaskD 164.39.210.117,1   164.39.210.117,1   164.39.210.118.1   47
  • 38. よくある質問 48
  • 39. Q.  Hadoopはどんな⽬目的にも使えるの?   •  A.  いいえ、そのようなことはありません   •  •  •  49 ⼤大量量データ全てを処理理するようなユースケースには向いて います   ⼀一⽅方、リアルタイム性は期待できません。また、HDFSの設 計上データの更更新はできず、MapReduceもトランザクショ ン処理理は備えていないため、データベースの置き換え⽬目的 などには向いていません   とはいえ、低遅延なアクセスを⾏行行ったり、SQLライクなア クセスができるなどのエコシステムが増えています  
  • 40. Q.  Hadoopはどんな⽬目的にも使えるの?   •  各種事例例はCloudera  World  2013の各セッションも参 考に(多くの資料料が公開されます)   •  h>p://h>p://www.cloudera.co.jp/jpevents/cwt2013/   •  Clouderaにも英語のホワイトペーパーもあります   h>p://www.cloudera.com/content/cloudera/en/resources/library.html? category=cloudera-­‐resources%3Awhy-­‐cloudera%2Fwhite-­‐papers&q=     Strata+Hadoop  Worldでも多くの事例例が紹介されています   h>p://strataconf.com/stratany2013/   •    50
  • 41. Q.  Hadoopって難しい?  ⼈人材不不⾜足   •  ⽇日経コンピュータ  2011年年9⽉月15⽇日号 •  •  ⽇日本経済新聞   •  51 ビッグデータ⾰革命:最⼤大の課題は⼈人材不不⾜足 ビッグデータ分析に⼈人材の壁、25万⼈人不不⾜足⾒見見通し   (2013/7/17)
  • 42. A.  トレーニングと認定資格   http://cloudera.co.jp/university •  ※詳細は配布資料料をご覧下さい   •  トレーニング   •  •  •  •  •  Hadoop開発者向け              ・  HBase   Hadoop管理理者向け              ・  Hadoopエッセンシャル   データアナリスト向け   データサイエンティスト⼊入⾨門   認定資格   •  •  •  •  Hadoop開発者認定   Hadoop管理理者認定   HBaseスペシャリスト認定   Cloudera認定スペシャリスト:データサイエンス   h>p://enterprisezine.jp/arxcle/corner/220/ 52
  • 43. Q.  Hadoopは使いにくい?     53
  • 44. A.  いいえ、エコシステムも充実しています   例:SQLライクにHadoopを使う  - Hive  - Cloudera Impala 54
  • 45. A.  さらに、最近はGUIも充実   Hadoop用のGUI Cloudera  Hue (ファイルマネージャ) 運用管理ツール Cloudera  Manager 55
  • 46. A.  さらに、最近はGUIも充実(続き)   Hadoop用のGUI Cloudera  Hue Cloudera  Search  アプリ 56
  • 47. Cloudera  Enterprise  5  (Coming  Soon)       57
  • 48. Cloudera  Enterprise   •  Hadoopをエンタープライズで利利⽤用するためのベスト ソリューション   •  CDH  (Cloudera’s  Distribuxon  includes  Apache  Hadoop)   •  •  •  •  最も利利⽤用されているディストリビューション   オープンソースソフトウェア   多くのエコシステム(Cloudera  Impala,Hue,Hive,….)   Cloudera Manager •  •  CDHを管理理する統合管理理ツール   機能限定の無償版(スタンダード)と、サブスクリプションを購 ⼊入していただくと利利⽤用できる版(エンタープライズ)   CDH/Cloudera  Managerを簡単に試すことができる仮想マシンイメージ Cloudera  QuickStart  VM:         http://bit.ly/1966hRW 58
  • 49. Hadoopへの貢献をリードするCloudera   Team   メーリングリスト投稿数 プロジェクトごとのクローズチケット率 2011年8月 – 2012年8月 100%   90%   80%   70%   全クローズイシュー数 60%   23   50%   2   70   1072   40%   30%   20%   10%   2927   0%   Source:  Apache財団(Apache  Somware  Foundaxon)   59 Cloudera   MapR   IBM   HortonWorks   EMC  
  • 50. Cloudera  Manager  5  (ベータ版)   60
  • 51. Cloudera  Manager  5  (ベータ版)   61
  • 52. まとめ   63
  • 53. まとめ   •  Hadoopとは、   ⼤大量量なデータを「分散」して保存し、分散して保存 されているデータを「分散」して処理理するオープン ソースの実⾏行行基盤です   Hadoopを利用するならCloudera Enterpriseを選びましょう! 65
  • 54. We  are  Hiring!   •  Clouderaは貴⽅方を求めています!!   •  ソリューションアーキテクト   •  •  カスタマーオペレーションエンジニア   (サポート)   •  •  •  世界中のお客様のHadoopを守る!   インストラクター   システムエンジニア   •  •  Hadoopを使ったコンサルティングやモデリング   技術営業⽀支援   セールス     興味のある⽅方は下記までご連絡下さい!    info-­‐jp@cloudera.com   66
  • 55. We  are  Hiring!   67
  • 56. Thank  you!    Tatsuo  Kawasaki,  Manager/Senior  Instructor,  Cloudera  K.K          @kernel023