Hadoop事始め

Hadoop事始め

2010/10/16
You&I 印刷版

わんくま同盟名古屋勉強会 #15

自己紹介

• H/N You&I(読み：ユーアンドアイ)
• 出身生まれも育ちも名古屋市
• 年齢 30代前半
• 本職商学部出身の職業プログラマ
• 言語 C++, VisualBasic 6.0, 日本語COBOL
• 日記 http://d.hatena.ne.jp/youandi/
• 所属大規模分散技術勉強会in名古屋
名古屋アジャイル勉強会
わんくま同盟


なぜHadoopか？

• 安西先生！タイムドリブンなシミュレータのデ
ータ処理を速くしたいです！
• HBaseで高速にデータ書き込み可能
• HDFSにより大容量データも格納可能
• MapReduce他で高速にデータ処理可能
• 容易にスケールアップ可能

• というイメージを持っています！


Agenda

1. MapReduceとは？
2. 分散ファイルシステムについて
3. Hadoopの構成
4. Hadoopの環境構築及び利用
5. Hadoopのデモ
6. まとめ


1. MapReduceとは？(1/10)

• アレ？Hadoopの話は？
→Hadoopは、Googleが2003年に発表した
GoogleFileSystem(GFS)及び、2004年に発
表したMapReduceに関する学術論文を基に
作られています。
• Googleのシステムの詳細については書籍化
されています。
→Googleを支える技術
ISBN：978-4-7741-3432-1


Hadoopで実装されいるGoogleの技術
• The Google File System (2003年)
http://labs.google.com/papers/gfs.html
• MapReduce: Simplified Data Processing on Larg
e Clusters (2004年)
http://labs.google.com/papers/mapreduce.html
• BigTable: A Distributed Storage System for Struct
ured Data (2006年)
http://labs.google.com/papers/bigtable.html



• Googleでも使わているMapReduceってすげぇ！
• ん？でももう使われてないよw
HighScalability - Google's Colossus Makes Searc
h Real-time by Dumping MapReduce
http://mcaf.ee/d6e97
(参考日本語訳)
AgileCat - Google Instant では、リアルタイム検索
のために MapReduce を排除！
http://wp.me/pwo1E-1Kf



• MapReduceの説明の前に、分散処理のイメ
ージについてちょっと説明
• C++言語のソースコードを分散コンパイルす
る事例で紹介します(distcc等)
# ls
a.cpp b.cpp d.cpp e.cpp f.cpp Makefile
# make -j8
・・・



• 分散コンパイルの処理イメージ
•PC1～PC4のコンパイル環境は
PC2 同じバージョンの物を使う必要が
b.cpp
ある。
b.o •処理の振り分けは、ソースコード
ファイル単位となる。
c.cpp •分散コンパイルの場合、入力ファ
PC1 PC3 イルサイズ＜出力ファイルサイズ
c.o
となる。
a.cpp
↓ d.cpp
a.o d.o
PC4



• いよいよMapReduce！
• MapReduceは、関数型プログラミングのmap関
数、reduce関数の概念が基になっています
• MapReduceにおいても、map/reduce関数で処
理を行います
• map/reduce関数の入出力データは、Key-Valu
e形式で行います



• Hadoop MapReduce
• 1回のデータ処理を「Job」と定義
• 1回のmap/reduce関数の処理を「Task」と定義
• Hadoopのシステムでは「Job」の管理を行うJob
Trackerが一つ存在し、「Task」の管理を行うTa
skTrackerは処理ノード毎に一つ存在します。
• map/reduce以外に、split、partition、combine、
shuffule、mergeといった処理が存在します



• Hadoop MapReduceの処理の流れ
入力データ

入力スプリット入力データをMapタスクの処理単位に分割

Mapタスク入力データをKey-Value形式に変換

Partition/Combine Key-Valueデータの細分化・間引き

Shuffule/Merge Key単位でのデータソート

Reduceタスク Key-Valueデータの集約

出力データ

※開発者は一連の処理の流れを知っている必要はあるが、実装は一部のみで良い



• Hadoop MapReduceの処理イメージ
Split, Combine, Partition,
Task
Client Map Shuffule, Merge, Reduce
Tracker
Task
Tracker
Job Task
Tracker Tracker
Task
Tracker
Task
Tracker
※ちょっと質問。このシステムでテストの答案の採点・平均点・合否判定を
させるとすると、どういう処理の流れになるでしょうか？



• MapReduceの得意とする処理
• 何でも出来る訳では無い
• ×：リアルタイム処理
• ○：TEXT形式のデータの加工・集計
• アクセスログ解析
• 文書中のワードカウント
• 因みに天体画像処理でも使われています
Parallel Distributed Image Stacking and Mosaici
ng with Hadoop
http://slidesha.re/dAd17i

2. 分散ファイルシステムについて(1/6)

• 分散ファイルシステムについて
• 時代はBigData！
• データは肥大化する一方でPC1台ではデータは
収まりきらない
• そこで複数台のPCにデータを分散して保存
• 分散したデータは、ファイルシステムとして管理
をし易く
• 今まで保存出来なかったデータが保存できるよ
うになり、有効利用する流れ



• データを複数のノードで分散して管理するの
で、データの一貫性やトランザクションの話で
よく以下の話題が出てきます
• CAP(Consistency, Availability, Partition Toler
ance)
• ACID(Atomicity, Consistency, Isolation, Dura
bility)
• BASEトランザクション(Basically Available, Sof
t-state, Eventual consistency)
• でも今日は無しの方向で！


• HDFS(Hadoop Distributed File System)
• 全体を管理するNameNodeが１つと、数多くの
DataNodeで構成されています
• HDFSの１ブロックのサイズは、64MBです。多く
の場合、64MB以上の設定で利用されています
• PB(ペタバイト:1024TB)のデータも扱えます
• HDFSでは、データの読み込み、データの書き
込み(新規・追記)が可能。データの修正・変更
は出来ません



• HDFSの続き
• NameNodeは各DataNodeのデータセンター・
ラック内での位置情報を把握
• DataNode内で各DataNodeのブロックのデータ
のレプリカ(複製)をデフォルト設定では１つ持つ
• この時複製は同一のデータセンターやラック上
のDataNodeとならないように考慮する
• NameNodeはHDFS上で１つしか存在しない為、
単一障害点(SPOF:Single Point Of Failure)と
なっている



• HDFSのイメージ
NameNode

DataNode DataNode DataNode






• Hadoop MapReduce＋HDFSのイメージ
• JobTrackerとNameNodeは同一PC
Client JobTracker
上でも動作可能
• JobTrackerはDataNode上のデータ
NameNode 配置状況を考慮してTaskTrackerに
Taskを投げる

TaskTracker TaskTracker TaskTracker

TaskTracker TaskTracker TaskTracker


3. Hadoopの構成(1/5)

• Apache Hadoop プロジェクト
• http://hadoop.apache.org/
• アイコンはぞうさんです
• 「ハドゥープ」って読みます
• 「hadoop」は造語です
• Googleのシステムのクローン実装です
• Google MapReduce
• Google File System(GFS)
• BigTable


• 複数のサブプロジェクトで構成されています
• 夜間バッチ処理等によく利用されています
• 基本的にLinux上で利用します
• 分散処理を行うJavaで作成されたフレームワ
ークです
• 開発者はフレームワークを利用するアプリを
開発することになります



• 単純な処理の組み合わせなのでノードの追
加により直線的なスケーラビリティが期待で
きます(設計・実装次第)
• Streaming APIを利用するとJava以外の言
語からも利用できます
• C++の場合はHadoop Pipesを利用します



• GoogleとHadoopのシステム構成の比較

Google Hadoop

Google File System Hadoop Distributed Fi
(GFS) le System(HDFS)

Google MapReduce Hadoop MapReduce

BigTable HBase



• Hadoopのサブプロジェクト構成
Oozie
(Workflow Engine)

Pig Hive
(Data Flow) (Batch SQL)
Chukwa
(Coordination)

(Serialization)
(Displaying, Monitoring, Analyzing Logs)
ZeroKeeper

Avro/Thrift
MapReduce
(Job Scheduling - Raw Processing)
HBase
(RealTime Query)
HDFS
(Hadoop Distributed File System)


4. Hadoopの環境構築及び利用(1/5)

• 用意する物
• Linuxの環境(CentOS, Ubuntu)
• Java Runtime Environment(JRE)
• Hadoop
※Windows環境ならCygwinを利用する方法も可能。
但し、本腰入れてメンテナンスされている訳では無
いので、常用は止めておいた方が良いかも。
参考：Hisidama's Hadoop Memo
http://mcaf.ee/2034a



• Linuxで環境構築する場合は、Cloudera社の
パッケージを利用するのが便利というか、こ
の方法が一般的。
Cloudera
http://www.cloudera.com/
• Cloudera社のパッケージには、Hadoop本体
以外にOozie等も含まれています。



• Hadoopの実行(Java)
% hadoop ¥
JavaAppName ¥
input.txt ¥
output



• Hadoop Streamingでの実行(Ruby)
% hadoop jar ¥
$HADOOP_INSTALL/contrib/streaming/hadoop-*-str
eaming.jar ¥
-input input.txt ¥
-output output ¥
-mapper MyMapper.rb ¥
-reducer MyReducer.rb



• Hadoop Pipesでの実行(C++)
% hadoop pipes ¥
-D hadoop.pipes.java.recordreader=true ¥
-D hadoop.pipes.java.recordwriter=true ¥
-input input.txt ¥
-output output ¥
-program CppAppName


5. Hadoopのデモ

何かデモを行う予定・・・。


6. まとめ(1/4)

1. MapReduceとは？
• Googleではもう使われていない
• リアルタイムデータ処理には向かない
• 直線的なスケーラビリティ(設計次第)
• パフォーマンスの肝は、如何にReduceタスクを
効率よく処理するか


6. まとめ(2/4)

2. 分散ファイルシステムについて
• 時代はBigData！
• 捨てていたデータを有効活用できるかも？
• ネームノードが単一故障点となる
• パフォーマンスの肝は、如何にDiskとNetwork
のI/Oを減らすか


6. まとめ(3/4)

3. Hadoopの構成
• Hadoopはフレームワークである
• 複数のプロジェクトで構成されている
• 自分で環境を作らなくても、今後はHadoopを簡
単に利用できるWebサービスが出てくる


6. まとめ(4/4)

4. Hadoopの環境構築及び利用
• 基本的にLinux環境が前提
• HadoopはCloudera社のパッケージを使う
• Hadoopから呼び出される、map/reduce関数を
実装する
• 細かく制御したければ、Java又はJavaVM上で
動作する言語で開発する


参考文献・参考情報

1. Hadoop(ISBN:978-4873114392)
http://www.oreilly.co.jp/books/9784873114392/
2. Googleを支える技術(ISBN：978-4-7741-3432-1)
http://gihyo.jp/book/2008/978-4-7741-3432-1
3. 平成２１年度産学連携ソフトウェア工学実践事業報
告書の公表について - 高信頼クラウド実現用ソフト
ウェア開発（分散制御処理技術等に係るデータセン
ター高信頼化に向けた実証事業）
http://mcaf.ee/0c915


Hadoop事始め

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (18)

Similar to Hadoop事始め

Similar to Hadoop事始め (20)

Recently uploaded

Recently uploaded (9)

Hadoop事始め