More Related Content
Similar to Hadoopとその周辺の紹介
Similar to Hadoopとその周辺の紹介 (20)
More from Shinya Okano (17)
Hadoopとその周辺の紹介
- 2. Apache Hadoopとは
● 分散処理基盤
○ HDFS - 分散ファイルシステム
○ MapReduce - 分散処理フレームワーク
● Apache財団のプロジェクト
● Javaで作られている
● http://hadoop.apache.org/
- 5. HDFSの操作
$ hdfs dfs -ls /user/tokibito
Found 3 items
drwx------ tokibito tokibito
0
drwxrwxrwx
- tokibito tokibito
0
-rw-r--r-3 tokibito tokibito
419
$ hdfs dfs -put test.txt /user/tokibito/
$ hdfs dfs -ls /user/tokibito/
Found 4 items
drwx------ tokibito tokibito
0
drwxrwxrwx
- tokibito tokibito
0
-rw-r--r-3 tokibito tokibito
419
-rw-r--r-3 tokibito tokibito
5
$ hdfs dfs -cat /user/tokibito/test.txt
hoge
hdfs dfsコマンドを使ってファイルを操作できる
put get mv rm ls mkdirなどのサブコマンドがある
2013-12-06 09:00 /user/tokibito/.Trash
2013-12-04 18:18 /user/tokibito/tab1
2013-12-06 15:34 /user/tokibito/test.tsv
2013-12-06
2013-12-04
2013-12-06
2014-01-08
09:00
18:18
15:34
11:18
/user/tokibito/.Trash
/user/tokibito/tab1
/user/tokibito/test.tsv
/user/tokibito/test.txt
- 6. MapReduceとは
● 分散処理フレームワーク
● 大きく分けて2つのコンポーネントで構成
○ JobTracker
○ TaskTracker
● ジョブ(Job)
○ Map処理とReduce処理の組み合わせ
■ org.apache.hadoop.mapreduce.Mapper
●
分割された入力データを並列処理
■ org.apache.hadoop.mapreduce.Reducer
●
Mapperの処理結果を一つにまとめる
○ jarパッケージにしてJobTrackerに登録する
- 13. Cloudera Impala
● Hadoop上のクエリエンジン
● SQLで問い合わせ
○ ImpalaDaemonがSQLをコンパイルして実行(LLVM)
● MapReduce処理の最適化
○ Impaladのノードと同じマシンのDataNodeを直接参照
■ ネットワーク転送のオーバーヘッド軽減
● C++で実装
● Hiveのメタ情報を利用
○ hiveのテーブルを参照できる
● 現状ではHiveの全機能はカバーできてない
● http://impala.io/
- 14. Impalaの操作
impala-shellコマンドで対話シェルを起動する
[slave1:21000] > use tokibito;
Query: use tokibito
[slave1:21000] > select * from tab1;
Query: select * from tab1
Query finished, fetching results ...
+----+-------+
| id | col_1 |
+----+-------+
| 7 | NULL |
| 1 | foo
|
| 2 | hoge |
| 3 | bar
|
| 4 |
|
| 5 | NULL |
| 1 | NULL |
+----+-------+
Returned 7 row(s) in 2.46s
- 17. CDH
● Cloudera's Distribution Including Apache
Hadoop
● 米Cloudera社
● Hadoopのパッケージ
○ rpm
○ 依存関係が解決されている
○ 安定したバージョンのパッケージ
● http://www.cloudera.
com/content/cloudera/en/products-andservices/cdh.html
- 18. Cloudera Manager
● Hadoopクラスタの管理ツール
● Webベース
● ホストの管理
○ 対象の各ホストにagentをインストールする
● ホストへのCDHのインストール
○ 一括で自動インストール可能
● サービスの管理
○ どのホストでどのサービスを動かすかをWebUIから一括
設定可能
● http://www.cloudera.
com/content/cloudera/en/products-and-