MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

•

9 likes•4,374 views

Hadoop / Spark Conference Japan

■MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

Technology

[Work-In-Progress]
MapReduce/Spark/Tez の
フェアな
性能比較に向けて
oza

背景
• MapReduce-style フレームワークでは Extract, Transform, Load
処理を行うことが多い
• Hadoop/MapReduce
• Spark
• Tez
• 主な ETL workload
• ソート,集約,ジョインを前処理なしで行う
• ETL の比較をフェア”に行いたい

背景
• Spark もディスクベースで高速に動作するらしいの
で試したい
• Spark won Daytona GraySort on Nov. 5th, 2014

“フェア” とは?
• セマンティクスを全て同じにする
• sort の回数，チェックポイントの回数を同じに
した上での比較を行いたい
• Tez と MapReduce は API 互換があるので
そのまま動かせば良い
• Spark は API を駆使してがんばる

Environment
• Google Compute Engine
• slave x 2 (WIP!)
• CPU 8 cores
• memory 64GB
• SSD x 8
• Version
• Hadoop 2.5.1
• Tez branch-0.5.2
• Spark branch-1.1.1

当初想定していたworkload
• [WIP]TeraSort (sort)
• 50GB
• WordCount (aggregation)
• 20GB (10GB per node)
• Join
• やってない

TeraSort 50GB
• MapReduce 22m34.220s
• Tez 14m52.593s
• Spark [ポーティング中]
• spark-perf is good place to port
• https://github.com/rxin/spark/blob/terasort/examples/
src/main/scala/org/apache/spark/examples/terasort/
TeraSort.scala

Wordcount 20GB
• MapReduce 11m13.173s
• Tez 7m19.763s
• Spark 4m 17s
• Spark is too fast … why?

Benchmark comparision
• MapReduce and Tez
• bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-
2.5.1.jar terasort -Dmapreduce.job.reduces=16
teragenInput50G out
• Spark
• sc.textFile("hdfs:///user/ozawa/wordcountInput20G")
.flatMap(line => line.split(" "))
.map(word => (word, 1)).persist()
.reduceByKey((a, b) => a + b, 16)
.saveAsTextFile(“hdfs:///user/ozawa/sparkWordcountOutNew1");
• Checking reduceByKey

reduceByKey
• Working without Sorting - not fair
• MapReduce は reduce 後に
キーのソートを行う

To be fair…
• 同じセマンティクスでやるとしたらどうなるか？
• sc.textFile("hdfs:///user/ozawa/wordcountInput20G")
.flatMap(line => line.split(" "))
.map(word => (word, 1)).persist()
(ここでパーティションごとにCombiner アリでソート）
.reduceByKey((a, b) => a + b, 16)
.saveAsTextFile(“hdfs:///user/ozawa/　　
sparkWordcountOutNew1");
• => 無理な気がする

Spark on Tez
• Allow for pluggable execution contexts in
Spark
• https://issues.apache.org/jira/browse/
SPARK-3561
• Exposing Spark API to everyone :-)
• http://hortonworks.com/blog/improving-spark-
data-pipelines-native-yarn-integration/

アーキテクチャ
Spark API (SparkContext)
Disk-based RDD
on Tez
In-memory RDD
on Spark

Why do so?
• ユーザ面の利点
• Tez は Disk に最適化されているので，ディスクベｰスのワー
クロードで高速に動作する…かも？
• YARN の機能を利用することでマルチユーザ環境で高いス
ループットを実現
• ベンチマーク視点で見ると…
• API が合うのでフェアなベンチマークが可能になるかも
• https://github.com/hortonworks/spark-native-yarn

まとめ
• Spark/Tez/MapReduce のベンチマークをしようとしたところ, Spark 挙動を併せる
のがかなり合わせるのが大変だと判明
• Tez/MapReduce は容易に比較が可能
• WordCount/TeraSort ベンチマーク中では
MapReduce と比較して Tez が高速に動作
• Tez/Spark は Spark on Tez の ON/OFF でベンチマークをするのが無難そう
• 今後の予定
• Tez と Spark の比較を行う
!

What's hot

Apache Hadoop の現在と将来（Hadoop / Spark Conference Japan 2016 キーノート講演資料）Hadoop / Spark Conference Japan

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料） hamaken

Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami

マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan

ただいまHadoop勉強中Satoshi Noto

Kuduを調べてみた #dogenzakaltToshihiro Suzuki

Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan

Spark sharkTsuyoshi OZAWA

SQL on Hadoop 比較検証【2014月11日における検証レポート】NTT DATA OSS Professional Services

Hadoop概要説明Satoshi Noto

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani

20111215_第1回EMR勉強会発表資料Kotaro Tsukui

HiveとImpalaのおいしいとこ取りYukinori Suda

Hadoop事始めＹｏｕ＆Ｉ

Hive on Spark の設計指針を読んでみたRecruit Technologies

Hadoopを用いた大規模ログ解析shuichi iida

Sparkストリーミング検証BrainPad Inc.

CDH4.1オーバービューCloudera Japan

Evolution of Impala #hcj2014Cloudera Japan

Hadoop入門Preferred Networks

What's hot (20)

Apache Hadoop の現在と将来（Hadoop / Spark Conference Japan 2016 キーノート講演資料）

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

ただいまHadoop勉強中

Kuduを調べてみた #dogenzakalt

Spark Streamingを活用したシステムの検証結果と設計時のノウハウ

Spark shark

SQL on Hadoop 比較検証【2014月11日における検証レポート】

Hadoop概要説明

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall

20111215_第1回EMR勉強会発表資料

HiveとImpalaのおいしいとこ取り

Hadoop事始め

Hive on Spark の設計指針を読んでみた

Hadoopを用いた大規模ログ解析

Sparkストリーミング検証

CDH4.1オーバービュー

Evolution of Impala #hcj2014

Hadoop入門

Viewers also liked

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Nagato Kasaki

Sparkパフォーマンス検証BrainPad Inc.

Apache Spark 1000 nodes NTT DATANTT DATA OSS Professional Services

Apache Spark チュートリアルK Yamaguchi

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話Yahoo!デベロッパーネットワーク

Apache Spark超入門（Hadoop / Spark Conference Japan 2016 講演資料）NTT DATA OSS Professional Services

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）NTT DATA OSS Professional Services

Failing gracefullyTakuya UESHIN

GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014鉄平土佐

HiveハンズオンSatoshi Noto

Facebookのリアルタイム Big Data 処理maruyama097

リアルタイム処理エンジンGearpumpの紹介Sotaro Kimura

Towards Benchmaking Modern Distruibuted Systems-(Grace Huang, Intel)Spark Summit

TPC-DSから学ぶPostgreSQLの弱点と今後の展望Kohei KaiGai

Hadoopによる大規模分散データ処理Yoji Kiyota

機械学習CROSS 前半資料Shohei Hido

Cloud OSの進化を考えるmaruyama097

Apache Sparkの紹介Ryuji Tamagawa

Spark勉強会_ibm_20151014-公開版Atsushi Tsuchiya

Viewers also liked (20)

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016

Sparkパフォーマンス検証

Apache Spark 1000 nodes NTT DATA

Apache Spark チュートリアル

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話

Apache Spark超入門（Hadoop / Spark Conference Japan 2016 講演資料）

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）

Failing gracefully

GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014

Hiveハンズオン

Facebookのリアルタイム Big Data 処理

リアルタイム処理エンジンGearpumpの紹介

Towards Benchmaking Modern Distruibuted Systems-(Grace Huang, Intel)

TPC-DSから学ぶPostgreSQLの弱点と今後の展望

Hadoopによる大規模分散データ処理

機械学習CROSS 前半資料

Cloud OSの進化を考える

Apache Sparkの紹介

Spark勉強会_ibm_20151014-公開版

Similar to MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

MapReduce解説Shunsuke Aihara

Scala on HadoopShinji Tanaka

Hadoop輪読会第6章Akihiro Kuwano

MapReduce基礎Joongjin Bae

20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...Amazon Web Services Japan

Googleの基盤クローン HadoopについてKazuki Ohta

Scalaで萌える関数型プログラミング[完全版]Ra Zon

Map server入門 - FOSS4G 2012 HokkaidoHideo Harada

BPStudy32 CouchDB 再入門Yohei Sasaki

Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習Katsushi Yamashita

A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)Hadoop / Spark Conference Japan

Developers.IO 2019 Effective DatalakeSatoru Ishikawa

EmbulkとDigdagとデータ分析基盤とToru Takahashi

Scalaで萌える関数型プログラミング[1.1.RC1]Ra Zon

Fluentd casualoranie Narut

Presto As A Service - Treasure DataでのPresto運用事例Taro L. Saito

Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標Tomoharu ASAMI

Functional JavaScript with Lo-Dash.jsShogo Sensui

20160127三木会 RDB経験者のためのsparkRyuji Tamagawa

Similar to MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演） (20)

MapReduce解説

Scala on Hadoop

Hadoop輪読会第6章

MapReduce基礎

20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...

Googleの基盤クローン Hadoopについて

Scalaで萌える関数型プログラミング[完全版]

Map server入門 - FOSS4G 2012 Hokkaido

BPStudy32 CouchDB 再入門

Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習

A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)

Developers.IO 2019 Effective Datalake

EmbulkとDigdagとデータ分析基盤と

Scalaで萌える関数型プログラミング[1.1.RC1]

Fluentd casual

Presto As A Service - Treasure DataでのPresto運用事例

Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標

Functional JavaScript with Lo-Dash.js

20160127三木会 RDB経験者のためのspark

More from Hadoop / Spark Conference Japan

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)Hadoop / Spark Conference Japan

What makes Apache Spark?Hadoop / Spark Conference Japan

Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたってHadoop / Spark Conference Japan

Apache Kudu Fast Analytics on Fast Data （Hadoop / Spark Conference Japan 2016...Hadoop / Spark Conference Japan

The Evolution and Future of Hadoop Storage （Hadoop Conference Japan 2016キーノート...Hadoop / Spark Conference Japan

Sparkによる GISデータを題材とした時系列データ処理（Hadoop / Spark Conference Japan 2016 講演資料）Hadoop / Spark Conference Japan

Project Tungsten Bringing Spark Closer to Bare Meta （Hadoop / Spark Conferenc...Hadoop / Spark Conference Japan

Spark 2.0 What's Next （Hadoop / Spark Conference Japan 2016 キーノート講演資料）Hadoop / Spark Conference Japan

Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan

初めてのHadoopパッチ投稿 / How to Contribute to Hadoop　（Cloudera World Tokyo 2014 LT講演資料）Hadoop / Spark Conference Japan

Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)Hadoop / Spark Conference Japan

The Future of Apache SparkHadoop / Spark Conference Japan

HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)Hadoop / Spark Conference Japan

More from Hadoop / Spark Conference Japan (13)

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)

What makes Apache Spark?

Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって

Apache Kudu Fast Analytics on Fast Data （Hadoop / Spark Conference Japan 2016...

The Evolution and Future of Hadoop Storage （Hadoop Conference Japan 2016キーノート...

Sparkによる GISデータを題材とした時系列データ処理（Hadoop / Spark Conference Japan 2016 講演資料）

Project Tungsten Bringing Spark Closer to Bare Meta （Hadoop / Spark Conferenc...

Spark 2.0 What's Next （Hadoop / Spark Conference Japan 2016 キーノート講演資料）

Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境

初めてのHadoopパッチ投稿 / How to Contribute to Hadoop　（Cloudera World Tokyo 2014 LT講演資料）

Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

The Future of Apache Spark

HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)

MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

1. [Work-In-Progress] MapReduce/Spark/Tez のフェアな性能比較に向けて oza

2. 背景 • MapReduce-style フレームワークでは Extract, Transform, Load 処理を行うことが多い • Hadoop/MapReduce • Spark • Tez • 主な ETL workload • ソート,集約,ジョインを前処理なしで行う • ETL の比較をフェア”に行いたい

3. 背景 • Spark もディスクベースで高速に動作するらしいので試したい • Spark won Daytona GraySort on Nov. 5th, 2014

4. “フェア” とは? • セマンティクスを全て同じにする • sort の回数，チェックポイントの回数を同じにした上での比較を行いたい • Tez と MapReduce は API 互換があるのでそのまま動かせば良い • Spark は API を駆使してがんばる

5. Environment • Google Compute Engine • slave x 2 (WIP!) • CPU 8 cores • memory 64GB • SSD x 8 • Version • Hadoop 2.5.1 • Tez branch-0.5.2 • Spark branch-1.1.1

6. 当初想定していたworkload • [WIP]TeraSort (sort) • 50GB • WordCount (aggregation) • 20GB (10GB per node) • Join • やってない

7. TeraSort 50GB • MapReduce 22m34.220s • Tez 14m52.593s • Spark [ポーティング中] • spark-perf is good place to port • https://github.com/rxin/spark/blob/terasort/examples/ src/main/scala/org/apache/spark/examples/terasort/ TeraSort.scala

8. Wordcount 20GB • MapReduce 11m13.173s • Tez 7m19.763s • Spark 4m 17s • Spark is too fast … why?

9. Benchmark comparision • MapReduce and Tez • bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples- 2.5.1.jar terasort -Dmapreduce.job.reduces=16 teragenInput50G out • Spark • sc.textFile("hdfs:///user/ozawa/wordcountInput20G") .flatMap(line => line.split(" ")) .map(word => (word, 1)).persist() .reduceByKey((a, b) => a + b, 16) .saveAsTextFile(“hdfs:///user/ozawa/sparkWordcountOutNew1"); • Checking reduceByKey

10.

11. reduceByKey • Working without Sorting - not fair • MapReduce は reduce 後にキーのソートを行う

12. To be fair… • 同じセマンティクスでやるとしたらどうなるか？ • sc.textFile("hdfs:///user/ozawa/wordcountInput20G") .flatMap(line => line.split(" ")) .map(word => (word, 1)).persist() (ここでパーティションごとにCombiner アリでソート） .reduceByKey((a, b) => a + b, 16) .saveAsTextFile(“hdfs:///user/ozawa/　　 sparkWordcountOutNew1"); • => 無理な気がする

13. 困った • 何か手はないか？

14. Spark on Tez • Allow for pluggable execution contexts in Spark • https://issues.apache.org/jira/browse/ SPARK-3561 • Exposing Spark API to everyone :-) • http://hortonworks.com/blog/improving-spark- data-pipelines-native-yarn-integration/

15. アーキテクチャ Spark API (SparkContext) Disk-based RDD on Tez In-memory RDD on Spark

16. Why do so? • ユーザ面の利点 • Tez は Disk に最適化されているので，ディスクベｰスのワークロードで高速に動作する…かも？ • YARN の機能を利用することでマルチユーザ環境で高いスループットを実現 • ベンチマーク視点で見ると… • API が合うのでフェアなベンチマークが可能になるかも • https://github.com/hortonworks/spark-native-yarn

17. benchmark by Hortonworks

18. まとめ • Spark/Tez/MapReduce のベンチマークをしようとしたところ, Spark 挙動を併せるのがかなり合わせるのが大変だと判明 • Tez/MapReduce は容易に比較が可能 • WordCount/TeraSort ベンチマーク中では MapReduce と比較して Tez が高速に動作 • Tez/Spark は Spark on Tez の ON/OFF でベンチマークをするのが無難そう • 今後の予定 • Tez と Spark の比較を行う !

MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

Similar to MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演） (20)

More from Hadoop / Spark Conference Japan

More from Hadoop / Spark Conference Japan (13)

MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）