Hadoop入門

Hadoop入門

株式会社 Preferred Infrastructure
西川徹

とは？
• Googleの基盤ソフトウェアのクローン
– Google File System, MapReduce
• Yahoo Research の Doug Cutting氏が開発
– 元々はLuceneのサブプロジェクト
– Apache Project
• Javaで記述!

Google関連参考論文 & スライド
• The Google File System
– Sanjay Ghemawat, Howard Gobioff, and Shu-Tak
Leong, SOSP 2003

• MapReduce: Simplified Data Processing on Large
Clusters
– Jeffrey Dean and Sanjay Ghemawat, SOSP 2004

• Parallel Architectures and Compilation
Techniques (PACT) 2006, KeyNote
– http://www.cs.virginia.edu/~pact2006/program/mapr
educe-pact06-keynote.pdf

Hadoop参考文献
• Hadoop公式サイト
– http://hadoop.apache.org/core/
– Wiki: http://wiki.apache.org/hadoop/
• インストール方法・チュートリアル・プレゼン資料など
– Running Hadoop on Ubuntu Linux
• http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-
Node_Cluster)
• http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_%28Multi-
Node_Cluster%29

• Hadoop, hBaseで構築する大規模データ処理システム
on Codezine
– http://codezine.jp/a/article/aid/2448.aspx

弊社による取り組み
• OSS分散システム「Hadoop」解析資料
– NTTレゾナント様と共同で調査・公開

• Googleの基盤システムと比較し、機能的には
遜色が無い事を確認
– GFS/HDFSの機能比較
– MapReduce/Hadoop Mapreduceの機能比較
– ソースコード構造の解析
– ベンチマーク結果

性能
• Apache Hadoop wins TeraSort Benchmark!
– http://developer.yahoo.com/blogs/hadoop/2008/
07/apache_hadoop_wins_terabyte_sort_benchm
ark.html
– 規定フォーマットの1Tデータをソート
– 209 seconds (5G/sec, 5M/sec per node)
• 910 nodes, 4 dual core Xeon 2.0GHz, 1G Ether

物量作戦

Hadoop,MapReduce登場の背景

問題
• インターネットの爆発的普及により、非常に大
規模なデータが蓄積されている
– 例えばWebページのサイズを考えてみる
• 200億ページ * 20KB = 400 TB

– Disk読み込み性能は50MB/sec (SATA)
• 1台では読み込むだけでも約100日
• 保存するだけでも500Gのディスクが1000個程度必要

• このデータを効率的に処理したい

解決方法
• お金
– とにかく大量のマシンを用意
– 1000台マシンがあれば1台で400G処理すればok
– 読み込むのに8000秒程度で済む

お金だけでは解決しない
• プログラミングが非常に困難になる
– プロセス起動
– プロセス監視うはー
めんどくせー！
– プロセス間通信
– デバッグ
– 最適化
– 故障時への対応

• しかも、新しいプログラムを作る度にこれらの
問題をいちいち実装する必要がある

既存の分散/並列プログラミング環境
• MPI (Message Passing Interface)
– 並列プログラミングのためのライブラリ
• スパコンの世界では主流

– プログラマは各プロセスの挙動を記述
• 通信プリミティブ(Send, Recv, All-to-All)が提供されてお
り、それを用いてデータ通信を実現

– 利点
• 通信パターンなどをプログラマがコントロールでき、問
題に対して最適なプログラムを記述する事ができる

MPIの問題点
• 問題点
– 耐障害性への考慮が少ない
• アプリケーションが独自にチェックポイント機能を実装
• 1万台以上の環境で計算するには耐えられない
– 1台が1000日程度で壊れるとすると、1日で10台程度壊れる
– 壊れる度にチェックポイントから戻すとかやってらんない
– RAID組んでもそのうち壊れるので一緒

– 通信パターンなどを記述する作業が多くなり、実
際のアルゴリズムを記述するのにたどり着くまで
時間がかかる

そこでMapReduce
• 大体の大規模データ処理を行う問題に特化したプロ
グラミングモデル
– アルゴリズムの記述のみにプログラマが集中できる
– ただし世の中の問題全てに対して最適なモデルではない

• ライブラリ側で面倒な事を全て担当
– 自動的に処理を分散/並列化
– ロードバランシング
– ネットワーク転送・ディスク使用効率化
– 耐障害性の考慮
• 1ノードで失敗したら違う場所でやりなおせばいいよね
– MapReduceが賢くなれば、それを使う全てのプログラムが
賢くなる！

MapReduce型の処理
• WordCount
• Grep
• Sort (適切なPartition関数を選択する必要)
• Log Analysis
• Web Graph Generation
• Inverted Index Construction
• Machine Learning
– NaiveBayes, K-means, Expectation Maximization,
etc.

MapReduce
プログラミングモデル

MapReduceの実行フロー

Data Map

Reduce Data

Data Map Shuffle

Reduce Data

Data Map

• 入力読み込み
– <key, value>*
• Map
– map: <key, value> ⇒ <key’, value’>*
• Shuffle
– shuffle: <key’, reducers> ⇒ destination reducer
• Reduce
– reduce: <key’, <value’> * > ⇒ <key’’, value’’>*
• 出力書き出し
– <key’’, value’’>*


<k, v>* ⇒ <k’, v’>*
<k, v>*
Data Map <k’, <v’>*>* ⇒ <k’’, v’’>*

Reduce Data
<k, v>* ⇒ <k’, v’>*
<k, v>*
Data Map Shuffle

Reduce Data
<k, v>* ⇒ <k’, v’>*
<k, v>* <k’, <v’>*>* ⇒ <k’’, v’’>*
Data Map

入力文書: doc1 例: ワードカウント
foo foo foo
bar bar buzz

Data Map

Reduce Data

Data Map Shuffle

Reduce Data

Data Map

foo foo foo
bar bar buz

Data Map
doc1: foo
doc1: foo Reduce Data

Data Map Shuffle
doc1: foo
doc1: bar Reduce Data

Data Map
doc1: bar
doc1: buz

foo foo foo
bar bar buz

doc1: foo
doc1: foo
Data Map

doc1: foo Reduce Data
doc1: bar
Data Map Shuffle

doc1: bar Reduce Data
doc1: buz
Data Map

foo foo foo
bar bar buz

doc1: foo foo: 1
doc1: foo foo: 1
Data Map

doc1: foo bar: 1 Reduce Data
doc1: bar foo: 1
Data Map

doc1: bar bar: 1 Reduce Data
doc1: buz buz: 1
Data Map

foo foo foo
bar bar buz

foo: 1
foo: 1
Map bar: <1, 1>
Data
buz: <1>

bar: 1 Reduce Data
foo: 1
Data Map foo: <1, 1, 1>

bar: 1 Reduce Data
buz: 1
Data Map

foo foo foo
bar bar buz

Map bar: <1, 1>
Data
buz: <1>
Reduce Data

Data Map foo: <1, 1, 1>

Reduce Data

Data Map

foo foo foo
bar bar buz

Map bar: <1, 1> bar: 2
Data
buz: <1> buz: 1
Reduce Data

Data Map foo: <1, 1, 1> foo: 3

Reduce Data

Data Map

foo foo foo
bar bar buz

Map bar: 2
Data
buz: 1
Reduce Data

Data Map foo: 3

Reduce Data

Data Map

例: ワードカウント
• 擬似コード
map(string key, string value) {
foreach word in value:
emit(word, 1);
}

reduce(string key, vector<int> values) {
int result = 0;
for (int i = 0; I < values.size(); i++)
result += values[i];
emit(key, result);
}

MapReduceの特徴
• データ通信
– 各Map処理、Reduce処理は完全に並列に実行可能
– マシンを増やせばその分処理能力が増える

• 耐故障性
– 失敗したMap, Reduce処理は他のノードで再実行される
– 遅いMap, Reduce処理についても同じ

• ローカリティ
– データのある場所で計算を始めれば、ネットワークを使う
必要がなくなる
– Moving Computation is Cheaper Than Moving Data

Hadoopの中身

• Hadoop Distributed File System (HDFS)
– GFSのクローン
– MapReduceプログラムの入力や出力に使用
• Hadoop MapReduce
– MapReduce処理を実現するためのサーバー,ライ
ブラリ

Hadoop Distributed File System
• Master/Slave アーキテクチャ
• ファイルはブロックという単位に分割して保存

• NameNode
– Master
– ファイルのメタデータ(パス・権限など)を管理

• DataNode
– Slave
– 実際のデータ(ブロックを管理)

From: http://hadoop.apache.org/core/docs/current/hdfs_design.html

Hadoop MapReduce
• Master/Slave アーキテクチャ

• JobTracker
– Master
– JobをTaskに分割し、Taskを各TaskTrackerに分配
• Job: MapReduceプログラムの実行単位
• Task: MapTask, ReduceTask
– 全てのTaskの進行状況を監視し、死んだり遅れたりしたTaskは
別のTaskTrackerで実行させる

• TaskTracker
– Slave
– JobTrackerにアサインされたTaskを実行
• 実際の計算処理を行う

MapReduce Processing
JobTracker

TaskTracker

Mapフェーズ
• 分割された入力を読み込み、mapプログラムを動かす
• Partitioner(通常はHash)を使用して宛先を決定
• バッファサイズが閾値を越えたらメモリ上でソートして
ディスクに書き出す
• すべてが終わったらソートされたものをさらに外部マー
ジソート
Reducer1宛て

(k, v) Reducer2宛て

Reduceフェーズ
• Mapフェーズの出力をフェッチ
• メモリ上でキー毎にまとめあげる
• Reduceプログラムを動かす
• 出力をHDFSに書き出し
– Amazon S3などにも書き出せる

概要
• Hadoopを扱いやすくするミドルウェア
– Pig
– Hive
Pig,Hive
– HBase
HBase
• MapReduce+RDBMS MapReduce

– HadoopDB
HDFS

Pig
• Pig Latinという専用言語で簡単にDWH的な処
理を書けるようにしたミドルウェア
– Javaを使用せずに、SQL的な言語でMapReduce処
理を記述する事が出来る
– Googleでは、同様にSawzallというスクリプト言語
で、MapReduce処理が簡単に書けるようになって
いる
• Yahoo!が開発
• データのロード・結合やフィルタ処理を楽に書
ける

Hive
• Pigと同じく、SQLのような言語(HiveQL)で処理
を記述することができる
– Facebookが独自に開発
• Join,Group Byといった操作を、SQLであたかも
扱っているように書くことが可能
• Facebookでは、95%のMapReduceジョブが、
HiveQLプログラムになっている

HBase
• BigTableのクローン
• HDFSは巨大なファイルを扱うのは苦手だが、
細かいデータを大量に扱う操作は苦手
• 細かい粒度・低レイテンシなデータアクセスを
可能にするための分散データベース
– 同じ分野のソフトウェアとして、HyperTable

• Telanium.Inc. 小宮山様のプレゼンに登場予定

HadoopDB
• Hadoopは、バッチ処理が得意
• OLAP的な処理はRDBMSが得意

• ２つをくっつけて、大量データ・非構造的なデ
ータをHadoopで処理し、対話的なBI処理は
RDBMSに任せる

RDBMSとの共存
• RDBMSとHadoopは競合するものではない

• 商用製品でもMapReduceとRDBMSのハイブリ
ッドなものがでてきた
– Vertica

まとめ
• Hadoopの概要
• MapReduceプログラミングモデル
• Hadoopの中身・アーキテクチャ
• Hadoopを取り巻く環境

Hadoop入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Hadoop入門

Similar to Hadoop入門 (20)

More from Preferred Networks

More from Preferred Networks (20)

Hadoop入門