Spark shark

Spark/Shark
@oza_x86

Tuesday, October 22, 13

おまえだれよ？
Tsuyoshi Ozawa @oza_x86
OSS developer
Apache Hadoop の開発をしてます
github : oza
←の22章を書いたよ！


アジェンダ
• Hadoop/MapReduce の復習
• Spark の概要
• Shark の概要


•

分散処理基盤

•
•

たくさんの計算機を使って高速に処理

Open Source!

Hadoop の構成
MapReduce

処理部

HDFS


1台辺りの構成

データ
保存部

•

MapReduce が
提供するもの
MapReduce

•
•
•
•
•

処理の分散並列化
耐障害性
ジョブ監視のための基盤
開発者のための抽象化されたインタフェース
(Map/Reduce)

引用元

•

http://www.slideshare.net/shiumachi/impala-15324018


MapReduce 概要
並列処理

集約処理

map
reduce
HDFS

map

HDFS
reduce

map

入力
読み込み

Shuﬄe

処理結果
書き込み

ところで...
• HDFS ためたデータに対して，
機械学習を行い，
高度な解析を行うということが
色々な場所で行われている

• Mahout (Hadoop 上のライブラリ)
• Jubatus (オンライン学習基盤)

MapReduce の問題点
•
•

機械学習のような繰り返し処理を行うようなものでは，性能が出ない
なぜ？

•

リソース割り当てに起因する問題

•
•

プログラムの起動に 15 sec 程度かかる

ディスク書き込みに起因する問題

•
•

HDFS への書き込みオーバヘッドが大きいため
Shuﬄe でローカルディスクに書き出すため

Spark の出番

Spark とは?
•

繰り返し処理を高速化するために HDFS に
特殊なキャッシュを乗っけた

•

機械学習を書くために DSL を提供

•
•
•
•

Map/Reduce 以外にも色々と API が定義
されている
DSL は勝手に分散処理される

実装をがんばっているため，起動に15secもかからない
Apache Incubator

•
•

http://spark-project.org/

Scala で 20k

なぜキャッシュ?
並列処理

集約処理

map
reduce
HDFS

map

HDFS
reduce

map

入力
読み込み

Shuﬄe

処理結果
書き込み

なぜキャッシュ?
並列処理

集約処理

map
reduce
HDFS

map

HDFS
reduce

map

入力
読み込み

処理結果
書き込み

なぜ特殊なキャッシュ?

• キャッシュは揮発性
→プロセスが落ちたら，再構築が必要

• 全体の処理をやり直す羽目に...


100回の繰り返し処理を
考える

並列処理

集約処理

map
reduce
HDFS

99回
目

map
reduce
map


99回
目の
結果

HDFS

考える

並列処理

集約処理
reduce

HDFS

99回
目

map
reduce
map


99回
目の
結果

HDFS

考える

並列処理

集約処理
reduce

HDFS

99回
目

map
reduce
map
キャッシュが壊
れる


99回
目の
結果

HDFS

考える

並列処理

集約処理

map
reduce
map

HDFS
99回
目


reduce
map

99回
目の
結果

HDFS

考える

並列処理

集約処理

map
reduce
map

HDFS
99回
目

reduce
map
読み直して
やり直し！！


99回
目の
結果

HDFS

特殊なキャッシュ
• Resillient Distributed Datasets
• チェックポイントから処理の依存関係を見
て最小限で復帰する仕組み

• ナイーブにキャッシュすると性能が出ない
ので Java のオブジェクトをそのまま保存

• https://www.usenix.org/system/ﬁles/
conference/nsdi12/nsdi12ﬁnal138.pdf

DSL
file = spark.textFile("hdfs://...")

file.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _)

• http://spark-project.org/examples/

起動が速い
•

1秒以内で立ち上がる

•

仕組み

•

Spark avoids this problem by using a fast event-driven RPC library
to launch tasks and by reusing its worker processes. It can launch
thousands of tasks per second with only about 5 ms of over- head
per task, making task lengths of 50–100 ms and MapReduce jobs
of 500 ms viable. What surprised us is how much this affected
query performance, even in large (multi-minute) queries[2].

•

意訳: 実装がんばったら，5msec で 1タスク立ち上がるように
なったよ

•

[2]Shark: SQL and Rich Analytics at Scale

Spark と MapReduce
の比較
•

Hadoop/MapReduce

•

ユーザは Map/Reduce という関数を
書く

•

チェックポイントは
勝手にとってくれる

•

Spark

•

ユーザは DSL を書く

•

チェックポイントは自分で取る
起動は1sec以内
お気軽に色々書ける...??

•

起動に15secくらいかかる

•

•

お気軽に色々書ける

•

MapReduce
HDFS


Spark
(Spark の中にキャッシュ！！)
HDFS

ベンチマーク結果
• 結構速い

• https://
www.usenix.org/
system/ﬁles/
conference/
nsdi12/nsdi12ﬁnal138.pdf

Apache Hive
SQL っぽいものを書くと MapReduce
プログラムにコンパイル


Spark DSL...?
•

集計の度に file = spark.textFile("hdfs://...")

•

厳しいのでは...?

file.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _)

Shark の出番

Shark とは?
• Spark 上で SQL はじめました
CREATE TABLE logs_last_month_cached AS SELECT * FROM logs
WHERE time > date(...);
SELECT page, count(*) c FROM logs_last_month_cached GROUP
BY page ORDER BY c DESC LIMIT 10;

Shark(SQL)

Spark
HDFS

Shark のポイント
• SQL を Spark の DSL にコンパイル
• Apache Hive の Spark 版(フォーク)
• 性能が出るようにキャッシュをうまく管理
• ストレージフォーマットを工夫
• キャッシュの置き場所を工夫
• Spark との親和性を重視

もうちょっと詳しく

•

[2]Shark: SQL and Rich Analytics at Scale


Shark のベンチマーク
selection query:
SELECT pageURL, pageRank
FROM rankings WHERE pageRank > X;

同条件のシンプルなクエリで速い理由
Spark の起動時間が高速
タスク割り当てが高速


まとめ
•

機械学習用の処理基盤 Spark

•
•

繰り返し処理にて
Hadoop の最大100倍高速

Spark のSQLインタフェース Shark

•
•

キャッシュの速さと足回りの速さ，
クエリの最適化により Hive の数倍高速
select のような基本的なクエリで
Hive よりも高速に動作

Spark shark

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Similar to Spark shark

Similar to Spark shark (20)

More from Tsuyoshi OZAWA

More from Tsuyoshi OZAWA (12)

Spark shark