Hadoop splittable-lzo-compression

Hadoop splittable-lzo-compression
の設定と評価

自己紹介佐藤大樹(dandaso)
2003∼2006 (株)ドワンゴ
2006∼2008 ウノウ（株）
2009∼ (株)スペイジーズ

自己紹介佐藤大樹(dandaso)
2003∼2006 (株)ドワンゴ
2006∼2008 ウノウ（株）
2009∼ (株)スペイジーズ

スペイシーズは人財を募集しております
・確率分布、統計、検定などの基礎知識
・回帰分析などの統計分析手法の知識
・パターンマイニング、分類器、
クラスタリングなどの機械学習の知識

大規模データ向けのバッチ分散処理システム

File File File File
Namenode
HDFS DataNode

JobTrcker
MAP MAP MAP MAP
TaskTracker
Reduce Reduce

Out Out

WordCount
INPUT MAP SHUFFLE REDUCE
CAT DOG CAT 1 CAT 1
ELEPHANT DOG 1 CAT 1
CAT 4
ELEPHANT 1 CAT 1
CAT 1 ELEPHANT 1
CAT DOG CAT 1
RABIT RABIT 1 ELEPHANT 1 DOG 1

DOG 1 RABIT 2
CAT 1
CAT CAT
CAT 1 RABIT 1
RABIT
RABIT 1 RABIT 1

Hadoopを利用する利点
・フレームワーク(MapReduce)に沿って
プログラムを書ばバッチ処理を分散処理を
してくれる
・ノードを増やせばスケールする
欠点
・起動のオーバーヘッドが大きため、
リアルタイム性を求める処理には向かない

Hadoopで扱える圧縮形式

複数スプリッ
圧縮形式ツールアルゴリズム拡張子
ファイルタブル

gzip gzip deﬂate .gz 不可不可
ファイル
ZIP zip deﬂate .zip 可能単位

bzip bzip2 bzip2 .bz2 不可可能

LZO lzop LZO .lzo 不可不可

Hadoopで扱える圧縮形式

複数スプリッ
圧縮形式ツールアルゴリズム拡張子
ファイルタブル

gzip gzip deﬂate .gz 不可不可
ファイル
ZIP zip .zip
deﬂate 可能単位
可能に！
bzip bzip2 bzip2 .bz2 不可可能

LZO lzop LZO .lzo 不可不可

2.1GのApacheのアクセスログ

圧縮時間圧縮速度サイズ解凍時間解凍速度
圧縮形式サイズ比
（sec） (M/sec) (MByte) (sec) (M/sec)

gzip 56 38.4 291 15 143 1/7

bzip 825 2.6 192 78 27.5 1/11
1/4.
lzo 12 179 475 5.6 379
5

lzopの圧縮レベルについて
2.1Gのログを圧縮
圧縮時間サイズ解凍時間
圧縮レベル
（sec） (M byte) (sec)

1 14.1 532 8.6

3 14.3 528 8.5

6 104 519 8.5

9 186 517 8.6

圧縮してMapReduceを行う利点と欠点
利点
・ディスク容量の節約
・ネットワーク帯域の節約
欠点
・CPUを使う
・ログファイルをすぐに閲覧できない

HDFS上ファイルをコピー
secondary
namenode namenode

tasktracker1 2 3 4

Hadoopの設定 (1)
Hadoopをインストール
$ sudo curl http://archive.cloudera.com/redhat/
cdh/cloudera-cdh2.repo > /etc/yum.repos.d/
cloudera-cdh2.repo
$ yum -y update yum
$ sudo yum -y install hadoop-0.20-conf-pseudo

Hadoopを設定
vi /etc/hadoop-0.20/masters
vi /etc/hadoop-0.20/slaves
vi /etc/hadoop-0.20/core-site.xml
vi /etc/hadoop-0.20/hdfs-site.xml
vi /etc/hadoop-0.20/mapred-site.xml

Hadoopの設定 (2)
/etc/hadoop-0.20/core-site.xml
・io.compression.codec.lzo.class
com.hadoop.compression.lzo.LzoCodec
・io.compression.codecs
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec,
org.apache.hadoop.io.compress.BZip2Codec
/etc/hadoop-0.20/core-mapred.xml
・mapred.map.output.compression.codec
com.hadoop.compression.lzo.LzoCodec

Hadoopの設定 (3) Hadoopを設定(LZO部分)
$yum install -y lzo-devel lzop
$git clone git://github.com/kevinweil/hadoop-lzo.git
$ant compile-native tar
$cp build/hadoop-lzo-0.4.4.jar /usr/lib/hadoop/lib/
$mkdir -p /usr/lib/hadoop/lib/native/Linux-amd64-64
$tar -cBf - -C build/hadoop-lzo-0.4.4/lib/native . ¦
sudo tar -xBvf - -C /usr/lib/hadoop/lib/native/Linux-
amd64-64

Hadoopの設定 (4) ソースコード
import com.hadoop.mapreduce.LzoTextInputFormat
public class Test extends Conﬁgured implements Tool {
...
public int run(String[] args) throws Exception {
....
// input formatにLzoを利用
conf.setInputFormat.(LzoTextInputFormat.class)
// 出力データにLzoを利用
FileOutputFormat.setOutputCompressorClass
(conf,com.hadoop.compression.lzo.LzopCodec.class);
FileOutputFormat.setCompressOutput(conf, true);
}

テストと評価 (1) テスト環境
TaskTrackerの環境
CentOS 5.4
Cloudera CDH2
XeonL5520 x1(8 thread)
Memory 16GByte
を4台で 2GByteのログを4つCount
mapred.tasktracker.map.tasks.maximum => 8

テストと評価 (2) lzo インデックスの作成
hadoop dfs -ls /user/hadoop/test/
2010-09-28 15:03 /user/hadoop/test/log1.lzo
hadoop jar /usr/lib/hadoop/lib/hadoop-lzo-0.4.4.jar
com.hadoop.compression.lzo.LzoIndexer test/

MapReduceでインデックスを付ける場合には
hadoop jar /usr/lib/hadoop/lib/hadoop-lzo-0.4.4.jar
com.hadoop.compression.lzo.DistributedLzoIndexer
test/

テストと評価 (3) lzo インデックスの作成
hadoop dfs -ls /user/hadoop/test/
2010-09-28 15:30 /user/hadoop/test/log1.lzo.index
ログ集計を実行
hadoop dfs jar logcount.jar jar logcount -m 24 -r 8
test/ testoutput/

テストと評価 (4)
入力ファイル MapReduce
MapTaskの数
サイズ実行時間

圧縮なし 127 8G 2:25

gzip 4 1.2G 6:29

bzip 24 0.87G 2:09

lzo 28 1.7G 2:11
＊Map input records はすべて 11,845,446

テストと評価 (4)
eth1 traﬁc bit/sec
bzip
gzip
lzo
圧縮なし

まとめ
HadoopLzo
・HDFSの容量を節約できる
・帯域を圧縮し、処理時間を短縮できる

Hadoop 0.20.xでは特別な理由が無い限り
利用したい

Hadoop splittable-lzo-compression

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Hadoop splittable-lzo-compression

Similar to Hadoop splittable-lzo-compression (20)

Hadoop splittable-lzo-compression

Editor's Notes