Hadoopを40分で理解する
Cloudera株式会社 エデュケーションサービス	
  
川崎 達夫	
  <kawasaki@cloudera.com>	
  
2013年11月7日	
  

1
About	
  Me	
  
• 

川崎  達夫(かわさき  たつお)	
  

• 

シニアインストラクター&研修全般業務を担当	
  
email:	
  kawasaki@cloudera.com	
  
twi>er:	
  @k...
Hadoop オペレーションの日本語訳が発売予定です	
  
• 
• 
• 
• 
• 
• 

11月下旬発売
通称「パカ」本  (?)
Cloudera  の Eric  Sammer  著
翻訳は安心の玉川竜司さん
レビューを手伝ってま...
Cloudera Impala の⽇日本語フリーブック
• 
• 
• 

オライリーの「インパラ本」、日本語PDF版が無償公開される予定です!
Cloudera  の John  Russell  著
Hadoop、HBase、Hadoopオ...
本⽇日のアジェンダ	
  
• 
• 
• 
• 

5

ビッグデータ	
  
ビッグデータを扱う上での課題	
  
Hadoop	
  
よくある質問	
  
ビッグデータ
Hadoopが存在している根拠

8
ビッグデータの間違った理理解	
  

STRUCTURED	
  DATA	
  –	
  20%	
  

BIGDATA != SIZE	
9
データ爆発	
  
1兆ギガバイトのデータが	
  
2011年に生成された…	
90%以上が非構造データ	
約50京(500x1000兆)のファイル	
2年毎に倍増	

STRUCTURED	
  DATA	
  –	
  20%	
  

...
ビッグデータの定義	
  

量
•  種類(多様性)
•  生成される速度
• 

11
量

—	
  Cisco	
  Systems	
  2013/5	
  

12
種類

13
速度

14
ビッグデータは必要か?	
  
• 
• 

現在、データは⾮非常に速いペースで増えている	
  
そのうちの90%は⾮非構造データ	
  
• 

15

従来の仕組みでこのようなデータを扱うことは難しい	
  
ビッグデータのチャレンジ	
  
• 
• 
• 

16

データの「量」「種類」「速さ」をコスト効率率率よく
管理理	
  
構造データと構造化データから価値を導く	
  
コンテキストの変換への対応と新しいデータソース
と種類を統合
Q.	
  統計学があればビッグデータは不不要か?	
  
• 

「世界がもし100⼈人の村だったら」	
  

	
  

17

h>p://www.jackhagley.com/filter/personal/896192	
  
If	...
A.必ずしもそうではありません	
  
• 

18

「ウォーリーを探せ」
A.	
  全てのデータがあれば、、	
  
• 

19

サンプリングや粒粒度度を切切り替えるためには、元にな
る全データが必要です	
  

Photo:	
  Kris	
  Krug	
  
h>p://www.flickr.com/p...
ビッグデータを扱う上での課題
既存システムの制約

20
ビッグデータ	
  
• 
• 

21

どうやって保存するか	
  
どうやって処理理するか	
  
⼤大量量なデータの保存	
  
課題	
  
•  1)データは増え続け
る	
  
•  2)読み書きの速度度	
  
•  3)コスト	
  
•  4)耐障害性	
  

22	
  
⼤大量量なデータの処理理	
  
• 

伝統的に、計算処理理は	
  
CPUに依存する	
  

初期のソリューション	
  
    -­‐>	
  巨⼤大なコンピュータ	
  
          ⾼高速なCPU	
  
       ...
⼤大量量なデータの処理理	
  
• 

より良良いソリューション	
  
-­‐>	
  ⼀一つのジョブを複数の	
  
    コンピュータで計算する	
  

        分散システム

24
分散システム	
  
• 

25

データを共有ディスクに保存し分散処理理を⾏行行う	
  
分散システムの課題	
  
• 
• 
• 

ディスクアクセスがボトルネック	
  
障害発⽣生時の処理理が複雑	
  
スケーラビリティ	
  

ボトル
ネック	

障害	

26
Hadoop	
  
Googleの技術に由来	
  

27
(再)分散システムの課題	
  
• 
• 
• 

ディスクアクセスがボトルネック	
  
障害発⽣生時の処理理が複雑	
  
スケーラビリティ	
  

ボトル
ネック	

障害	

28
Googleでのアプローチ	
  
• 

29

データは分散して保存しておき、処理理を⾏行行う	
  
Apache	
  Hadoop™	
  
• 

Googleが公開した論論⽂文を参考に開発された	
  
オープンソースソフトウェア	
  

Doug	
  Cu^ng	
  
Chief	
  Architect	
  @Clouder...
Apache	
  Hadoop™	
  
• 

32

データストレージと処理理のための	
  
オープンソースプラットフォーム
ü スケーラブル	
  
ü 耐障害性	
  
ü 分散される	
  
Apache	
  Hadoop™	
  
• 

HDFS	
  –	
  ストレージ	
  
• 

⼤大量量のデータが保存できる	
  
• 

• 
• 

Yahoo!では合計350PB、FaceBookも100PB超	
  

耐障...
Hadoopのアーキテクチャ	
  
• 

マスター/スレーブ	
  
マスター

(高可用性可能)

34

スレーブ群(1∼数千台)
⼤大量量なデータの保存	
  
データはあるサイズに	
  
    分割/分散して保存	
  
•  データは複製して配置	
  

マスター

スレーブ群

• 

72.165.33.132	
  -­‐	
  -­‐	
  [04/No...
⼤大量量なデータの保存	
  
• 
• 

容易易に容量量を増やせる	
  
構造/⾮非構造データ	
  

マスター

スレーブ群
72.165.33.132	
  -­‐	
  -­‐	
  [04/Nov/	
  
28.114.157...
⼤大量量なデータの保存	
  –	
  障害時	
  
• 
• 

データは複数箇所に	
  
あるのでロストしない
⾃自動で複製される	
  

72.165.33.132	
  -­‐	
  -­‐	
  [04/Nov/2013:21:...
⼤大量量なデータの処理理	
  -­‐	
  MapReduce	
  
• 

分散されたデータを	
  
それぞれのサーバで	
  
処理理する(Map)	
  

JOB	

マスター

スレーブ群

Task	
72.165.33.13...
⼤大量量なデータの処理理	
  -­‐	
  MapReduce	
  
• 

分散処理理した結果を	
  
集約する(Reduce)	
  

マスター

スレーブ群

Task	

72.165.33.132,	
  1	
  
72.1...
⼤大量量なデータの処理理	
  -­‐	
  MapReduce	
  
• 

障害もうまく扱って	
  
くれる	
  

(開発者は考慮しなくてOK)	
  

マスター

TaskB	
スレーブ群

TaskA	

72.165.33....
よくある質問

48
Q.	
  Hadoopはどんな⽬目的にも使えるの?	
  
• 

A.	
  いいえ、そのようなことはありません	
  
• 
• 

• 

49

⼤大量量データ全てを処理理するようなユースケースには向いて
います	
  
⼀一⽅方、リ...
Q.	
  Hadoopはどんな⽬目的にも使えるの?	
  
• 

各種事例例はCloudera	
  World	
  2013の各セッションも参
考に(多くの資料料が公開されます)	
  
• 

h>p://h>p://www.clou...
Q.	
  Hadoopって難しい?  ⼈人材不不⾜足	
  
• 

⽇日経コンピュータ  2011年年9⽉月15⽇日号
• 

• 

⽇日本経済新聞	
  
• 

51

ビッグデータ⾰革命:最⼤大の課題は⼈人材不不⾜足

ビッグデータ...
A.	
  トレーニングと認定資格	
  
http://cloudera.co.jp/university	

• 

※詳細は配布資料料をご覧下さい	
  

• 

トレーニング	
  
• 
• 
• 
• 

• 

Hadoop開発...
Q.	
  Hadoopは使いにくい?  	
  

53
A.	
  いいえ、エコシステムも充実しています	
  

例:SQLライクにHadoopを使う
 - Hive
 - Cloudera Impala

54
A.	
  さらに、最近はGUIも充実	
  

Hadoop用のGUI
Cloudera  Hue
(ファイルマネージャ)

運用管理ツール
Cloudera  Manager

55
A.	
  さらに、最近はGUIも充実(続き)	
  

Hadoop用のGUI
Cloudera  Hue
Cloudera  Search  アプリ
56
Cloudera	
  Enterprise	
  5	
  (Coming	
  Soon)	
  
	
  	
  

57
Cloudera	
  Enterprise	
  
• 

Hadoopをエンタープライズで利利⽤用するためのベスト
ソリューション	
  
• 

CDH	
  (Cloudera’s	
  Distribuxon	
  includes	...
Hadoopへの貢献をリードするCloudera	
  
Team	
  

メーリングリスト投稿数	

プロジェクトごとのクローズチケット率
2011年8月 – 2012年8月
100%	
  
90%	
  
80%	
  
70%	
  ...
Cloudera	
  Manager	
  5	
  (ベータ版)	
  

60
Cloudera	
  Manager	
  5	
  (ベータ版)	
  

61
まとめ	
  

63
まとめ	
  
• 

Hadoopとは、	
  
⼤大量量なデータを「分散」して保存し、分散して保存
されているデータを「分散」して処理理するオープン
ソースの実⾏行行基盤です	
  

Hadoopを利用するならCloudera Enter...
We	
  are	
  Hiring!	
  
• 

Clouderaは貴⽅方を求めています!!	
  
• 

ソリューションアーキテクト	
  
• 

• 

カスタマーオペレーションエンジニア	
  
(サポート)	
  
• 

...
We	
  are	
  Hiring!	
  

67
Thank	
  you!	
  

	
  Tatsuo	
  Kawasaki,	
  Manager/Senior	
  Instructor,	
  Cloudera	
  K.K

	
  

	
  

	
  

	
  

	
...
Upcoming SlideShare
Loading in...5
×

Hadoopを40分で理解する #cwt2013

7,616

Published on

#cwt2013 Clouderaの川崎 @kernel023 によるHadoop入門のスライドを公開しました。ビッグデータとは何か、なぜHadoopが必要なのかについて分かりやすく紹介しています

Published in: Technology
0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
7,616
On Slideshare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
74
Comments
0
Likes
10
Embeds 0
No embeds

No notes for slide

Hadoopを40分で理解する #cwt2013

  1. 1. Hadoopを40分で理解する Cloudera株式会社 エデュケーションサービス   川崎 達夫  <kawasaki@cloudera.com>   2013年11月7日   1
  2. 2. About  Me   •  川崎  達夫(かわさき  たつお)   •  シニアインストラクター&研修全般業務を担当   email:  kawasaki@cloudera.com   twi>er:  @kernel023   •  •  2
  3. 3. Hadoop オペレーションの日本語訳が発売予定です   •  •  •  •  •  •  11月下旬発売 通称「パカ」本  (?) Cloudera  の Eric  Sammer  著 翻訳は安心の玉川竜司さん レビューを手伝ってました 日本語版のみの付録も執筆!
  4. 4. Cloudera Impala の⽇日本語フリーブック •  •  •  オライリーの「インパラ本」、日本語PDF版が無償公開される予定です! Cloudera  の John  Russell  著 Hadoop、HBase、Hadoopオペレーション、 プログラミングHiveなどを翻訳された 玉川竜司さんが翻訳! 「これまでClouderaの皆さ んにご尽力いただいた翻訳 レビューへの感謝の気持ち として、Cloudera World Tokyo開催のお祝いに翻訳寄 贈します!」
  5. 5. 本⽇日のアジェンダ   •  •  •  •  5 ビッグデータ   ビッグデータを扱う上での課題   Hadoop   よくある質問  
  6. 6. ビッグデータ Hadoopが存在している根拠 8
  7. 7. ビッグデータの間違った理理解   STRUCTURED  DATA  –  20%   BIGDATA != SIZE 9
  8. 8. データ爆発   1兆ギガバイトのデータが   2011年に生成された… 90%以上が非構造データ 約50京(500x1000兆)のファイル 2年毎に倍増 STRUCTURED  DATA  –  20%   10
  9. 9. ビッグデータの定義   量 •  種類(多様性) •  生成される速度 •  11
  10. 10. 量 —  Cisco  Systems  2013/5   12
  11. 11. 種類 13
  12. 12. 速度 14
  13. 13. ビッグデータは必要か?   •  •  現在、データは⾮非常に速いペースで増えている   そのうちの90%は⾮非構造データ   •  15 従来の仕組みでこのようなデータを扱うことは難しい  
  14. 14. ビッグデータのチャレンジ   •  •  •  16 データの「量」「種類」「速さ」をコスト効率率率よく 管理理   構造データと構造化データから価値を導く   コンテキストの変換への対応と新しいデータソース と種類を統合
  15. 15. Q.  統計学があればビッグデータは不不要か?   •  「世界がもし100⼈人の村だったら」     17 h>p://www.jackhagley.com/filter/personal/896192   If  the  Twi>er  community  was  100  people...   h>p://www.flickr.com/photos/25541021@N00/3706760751/
  16. 16. A.必ずしもそうではありません   •  18 「ウォーリーを探せ」
  17. 17. A.  全てのデータがあれば、、   •  19 サンプリングや粒粒度度を切切り替えるためには、元にな る全データが必要です   Photo:  Kris  Krug   h>p://www.flickr.com/photos/kk/9240320949/
  18. 18. ビッグデータを扱う上での課題 既存システムの制約 20
  19. 19. ビッグデータ   •  •  21 どうやって保存するか   どうやって処理理するか  
  20. 20. ⼤大量量なデータの保存   課題   •  1)データは増え続け る   •  2)読み書きの速度度   •  3)コスト   •  4)耐障害性   22  
  21. 21. ⼤大量量なデータの処理理   •  伝統的に、計算処理理は   CPUに依存する   初期のソリューション       -­‐>  巨⼤大なコンピュータ             ⾼高速なCPU             ⼤大量量のメモリ   •  23
  22. 22. ⼤大量量なデータの処理理   •  より良良いソリューション   -­‐>  ⼀一つのジョブを複数の       コンピュータで計算する           分散システム 24
  23. 23. 分散システム   •  25 データを共有ディスクに保存し分散処理理を⾏行行う  
  24. 24. 分散システムの課題   •  •  •  ディスクアクセスがボトルネック   障害発⽣生時の処理理が複雑   スケーラビリティ   ボトル ネック 障害 26
  25. 25. Hadoop   Googleの技術に由来   27
  26. 26. (再)分散システムの課題   •  •  •  ディスクアクセスがボトルネック   障害発⽣生時の処理理が複雑   スケーラビリティ   ボトル ネック 障害 28
  27. 27. Googleでのアプローチ   •  29 データは分散して保存しておき、処理理を⾏行行う  
  28. 28. Apache  Hadoop™   •  Googleが公開した論論⽂文を参考に開発された   オープンソースソフトウェア   Doug  Cu^ng   Chief  Architect  @Cloudera   30
  29. 29. Apache  Hadoop™   •  32 データストレージと処理理のための   オープンソースプラットフォーム ü スケーラブル   ü 耐障害性   ü 分散される  
  30. 30. Apache  Hadoop™   •  HDFS  –  ストレージ   •  ⼤大量量のデータが保存できる   •  •  •  Yahoo!では合計350PB、FaceBookも100PB超   耐障害性   スケーラブル   1台〜~数千台   •  MapReduce  -­‐  ⼤大量量なデータを分散処理理できる   •  •  •  33 数多くのサーバで分散して処理理(数千台も可能)   耐障害性   汎⽤用的なプログラム⾔言語で記述できる  
  31. 31. Hadoopのアーキテクチャ   •  マスター/スレーブ   マスター (高可用性可能) 34 スレーブ群(1∼数千台)
  32. 32. ⼤大量量なデータの保存   データはあるサイズに       分割/分散して保存   •  データは複製して配置   マスター スレーブ群 •  72.165.33.132  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/finance     28.114.157.122  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /item/sports/2605   52.93.117.198  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electron   168.90.228.205  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "POST  /search/?c=Music   28.42.27.49  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electronic   192.120.64.138  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books?f   156.189.222.57  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/network   164.219.215.208  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books     84.42.208.90  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3186   164.39.210.117  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/garden/4484   196.144.35.85  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   80.78.35.71  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/35   80.174.161.70  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/garden  H   192.186.87.52  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/games  HT   132.186.183.184  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3   212.27.25.133  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   32.21.118.159  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/electron   56.99.155.75  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/books  HTT   196.63.29.59  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/games  HTT   24.87.189.150  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/somware   38 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A 168.90.228.205  -­‐  -­‐  [04/Nov/   28.42.27.49  -­‐  -­‐  [04/Nov/201   192.120.64.138  -­‐  -­‐  [04/Nov/ 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A 156.189.222.57  -­‐  -­‐  [04/Nov/2   164.219.215.208  -­‐  -­‐  [04/Nov/   84.42.208.90  -­‐  -­‐  [04/Nov/20 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ 164.39.210.117  -­‐  -­‐  [04/Nov/   196.144.35.85  -­‐  -­‐  [04/Nov/2   80.78.35.71  -­‐  -­‐  [04/Nov/201 A
  33. 33. ⼤大量量なデータの保存   •  •  容易易に容量量を増やせる   構造/⾮非構造データ   マスター スレーブ群 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ 168.90.228.205  -­‐  -­‐  [04/Nov/   28.42.27.49  -­‐  -­‐  [04/Nov/201   192.120.64.138  -­‐  -­‐  [04/Nov/ 156.189.222.57  -­‐  -­‐  [04/Nov/2   164.219.215.208  -­‐  -­‐  [04/Nov/   84.42.208.90  -­‐  -­‐  [04/Nov/20 164.39.210.117  -­‐  -­‐  [04/Nov/   196.144.35.85  -­‐  -­‐  [04/Nov/2   80.78.35.71  -­‐  -­‐  [04/Nov/201 39
  34. 34. ⼤大量量なデータの保存  –  障害時   •  •  データは複数箇所に   あるのでロストしない ⾃自動で複製される   72.165.33.132  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/finance     28.114.157.122  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /item/sports/2605   52.93.117.198  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electron   168.90.228.205  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "POST  /search/?c=Music   28.42.27.49  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/electronic   192.120.64.138  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books?f   156.189.222.57  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/network   164.219.215.208  -­‐  -­‐  [04/Nov/2013:21:57:09  +0900]  "GET  /category/books     84.42.208.90  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3186   164.39.210.117  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/garden/4484   196.144.35.85  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   80.78.35.71  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/35   80.174.161.70  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/garden  H   192.186.87.52  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/games  HT   132.186.183.184  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/somware/3   212.27.25.133  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /item/electronics/   32.21.118.159  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/electron   56.99.155.75  -­‐  -­‐  [04/Nov/2013:21:57:10  +0900]  "GET  /category/books  HTT   196.63.29.59  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/games  HTT   24.87.189.150  -­‐  -­‐  [04/Nov/2013:21:57:11  +0900]  "GET  /category/somware   40 マスター スレーブ群 ①障害 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ ②複製指示 ③複製 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ A A
  35. 35. ⼤大量量なデータの処理理  -­‐  MapReduce   •  分散されたデータを   それぞれのサーバで   処理理する(Map)   JOB マスター スレーブ群 Task 72.165.33.132  -­‐  -­‐  [04/Nov/   28.114.157.122  -­‐  -­‐  [04/No   52.93.117.198  -­‐  -­‐  [04/Nov/ Task 168.90.228.205  -­‐  -­‐  [04/Nov/   28.42.27.49  -­‐  -­‐  [04/Nov/201   192.120.64.138  -­‐  -­‐  [04/Nov/ Task 156.189.222.57  -­‐  -­‐  [04/Nov/2   164.219.215.208  -­‐  -­‐  [04/Nov/   84.42.208.90  -­‐  -­‐  [04/Nov/20 Task 164.39.210.117  -­‐  -­‐  [04/Nov/   196.144.35.85  -­‐  -­‐  [04/Nov/2   80.78.35.71  -­‐  -­‐  [04/Nov/201 45
  36. 36. ⼤大量量なデータの処理理  -­‐  MapReduce   •  分散処理理した結果を   集約する(Reduce)   マスター スレーブ群 Task 72.165.33.132,  1   72.165.33.132,  1   72.165.33.132,  1   72.165.33.145,  1 168.90.228.205,1   168.90.228.205,1   192.120.64.138,1 156.189.222.57,1   156.189.222.57,1   164.219.215.208,1   164.39.210.117,1   164.39.210.117,1   164.39.210.118.1   46
  37. 37. ⼤大量量なデータの処理理  -­‐  MapReduce   •  障害もうまく扱って   くれる   (開発者は考慮しなくてOK)   マスター TaskB スレーブ群 TaskA 72.165.33.132,  1   72.165.33.132,  1   72.165.33.132,  1   72.165.33.145,  1 TaskB 168.90.228.205,1   168.90.228.205,1   192.120.64.138,1 TaskC 156.189.222.57,1   156.189.222.57,1   164.219.215.208,1   TaskD 164.39.210.117,1   164.39.210.117,1   164.39.210.118.1   47
  38. 38. よくある質問 48
  39. 39. Q.  Hadoopはどんな⽬目的にも使えるの?   •  A.  いいえ、そのようなことはありません   •  •  •  49 ⼤大量量データ全てを処理理するようなユースケースには向いて います   ⼀一⽅方、リアルタイム性は期待できません。また、HDFSの設 計上データの更更新はできず、MapReduceもトランザクショ ン処理理は備えていないため、データベースの置き換え⽬目的 などには向いていません   とはいえ、低遅延なアクセスを⾏行行ったり、SQLライクなア クセスができるなどのエコシステムが増えています  
  40. 40. Q.  Hadoopはどんな⽬目的にも使えるの?   •  各種事例例はCloudera  World  2013の各セッションも参 考に(多くの資料料が公開されます)   •  h>p://h>p://www.cloudera.co.jp/jpevents/cwt2013/   •  Clouderaにも英語のホワイトペーパーもあります   h>p://www.cloudera.com/content/cloudera/en/resources/library.html? category=cloudera-­‐resources%3Awhy-­‐cloudera%2Fwhite-­‐papers&q=     Strata+Hadoop  Worldでも多くの事例例が紹介されています   h>p://strataconf.com/stratany2013/   •    50
  41. 41. Q.  Hadoopって難しい?  ⼈人材不不⾜足   •  ⽇日経コンピュータ  2011年年9⽉月15⽇日号 •  •  ⽇日本経済新聞   •  51 ビッグデータ⾰革命:最⼤大の課題は⼈人材不不⾜足 ビッグデータ分析に⼈人材の壁、25万⼈人不不⾜足⾒見見通し   (2013/7/17)
  42. 42. A.  トレーニングと認定資格   http://cloudera.co.jp/university •  ※詳細は配布資料料をご覧下さい   •  トレーニング   •  •  •  •  •  Hadoop開発者向け              ・  HBase   Hadoop管理理者向け              ・  Hadoopエッセンシャル   データアナリスト向け   データサイエンティスト⼊入⾨門   認定資格   •  •  •  •  Hadoop開発者認定   Hadoop管理理者認定   HBaseスペシャリスト認定   Cloudera認定スペシャリスト:データサイエンス   h>p://enterprisezine.jp/arxcle/corner/220/ 52
  43. 43. Q.  Hadoopは使いにくい?     53
  44. 44. A.  いいえ、エコシステムも充実しています   例:SQLライクにHadoopを使う  - Hive  - Cloudera Impala 54
  45. 45. A.  さらに、最近はGUIも充実   Hadoop用のGUI Cloudera  Hue (ファイルマネージャ) 運用管理ツール Cloudera  Manager 55
  46. 46. A.  さらに、最近はGUIも充実(続き)   Hadoop用のGUI Cloudera  Hue Cloudera  Search  アプリ 56
  47. 47. Cloudera  Enterprise  5  (Coming  Soon)       57
  48. 48. Cloudera  Enterprise   •  Hadoopをエンタープライズで利利⽤用するためのベスト ソリューション   •  CDH  (Cloudera’s  Distribuxon  includes  Apache  Hadoop)   •  •  •  •  最も利利⽤用されているディストリビューション   オープンソースソフトウェア   多くのエコシステム(Cloudera  Impala,Hue,Hive,….)   Cloudera Manager •  •  CDHを管理理する統合管理理ツール   機能限定の無償版(スタンダード)と、サブスクリプションを購 ⼊入していただくと利利⽤用できる版(エンタープライズ)   CDH/Cloudera  Managerを簡単に試すことができる仮想マシンイメージ Cloudera  QuickStart  VM:         http://bit.ly/1966hRW 58
  49. 49. Hadoopへの貢献をリードするCloudera   Team   メーリングリスト投稿数 プロジェクトごとのクローズチケット率 2011年8月 – 2012年8月 100%   90%   80%   70%   全クローズイシュー数 60%   23   50%   2   70   1072   40%   30%   20%   10%   2927   0%   Source:  Apache財団(Apache  Somware  Foundaxon)   59 Cloudera   MapR   IBM   HortonWorks   EMC  
  50. 50. Cloudera  Manager  5  (ベータ版)   60
  51. 51. Cloudera  Manager  5  (ベータ版)   61
  52. 52. まとめ   63
  53. 53. まとめ   •  Hadoopとは、   ⼤大量量なデータを「分散」して保存し、分散して保存 されているデータを「分散」して処理理するオープン ソースの実⾏行行基盤です   Hadoopを利用するならCloudera Enterpriseを選びましょう! 65
  54. 54. We  are  Hiring!   •  Clouderaは貴⽅方を求めています!!   •  ソリューションアーキテクト   •  •  カスタマーオペレーションエンジニア   (サポート)   •  •  •  世界中のお客様のHadoopを守る!   インストラクター   システムエンジニア   •  •  Hadoopを使ったコンサルティングやモデリング   技術営業⽀支援   セールス     興味のある⽅方は下記までご連絡下さい!    info-­‐jp@cloudera.com   66
  55. 55. We  are  Hiring!   67
  56. 56. Thank  you!    Tatsuo  Kawasaki,  Manager/Senior  Instructor,  Cloudera  K.K          @kernel023  
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×