Spark Summit 2014 の報告と最近の取り組みについて

The f{ea,u}ture of
Apache Spark
2014-08 ATL 研究会
Yu Ishikawa
1

アジェンダ
• What is Apache Spark?
• Spark Summit 2014 報告
• Contribute to Apache Spark
• Q&A
基礎知識
現状と将来性
取り組み
2

What is Apache Spark ?
Apache Spark is a Hadoop-compatible
computing system that makes big data analysis
drastically faster, through in-memory
computation, and simpler to write, through
easy APIs in Java, Scala and Python.
4

The history of Apache Spark
• UC Berkeley AMPLab のビッグデータ分析をターゲッ
トとしたBDAS というプロジェクトの中から生まれた
– https://amplab.cs.berkeley.edu/
• Matei Zaharia さんがUC Berkeley の博士課程の研
究でSpark を生み出す
– http://people.csail.mit.edu/matei/
• Databricks 社が設立されてSpark が展開
– Matei Zaharia さんはDatabricks 社のCTO
– http://databricks.com/
5

BDAS: Berkeley Data Analytics Stack
• Is an open source software stack that
integrates software components being built by
the AMPLab to make sense of Big Data.
6

なぜSpark のようなプロダクトが
求められているのか？
7

Hadoop MapReduce の欠点のひとつ
• ディスクの入出力がボトルネックになるので，データ
を再利用するような繰り返し処理などに向かない
8

What’s Apache Spark again ?
• in-memory で分散処理をするためのフレームワーク
• Hadoop MapReduce には向いていないアルゴリズムを実
装できる
• Iterative Algorithm
• k-means のような機械学習アルゴリズムやネットワーク分析アルゴリ
ズム
• 対話的な実行
– Scala を拡張したコンソールでSpark の対話的な実行もできる
9

単純にIn-memory だから
Spark は優れているのか？
10

RDD:Resilient Distributed Datasets
• DAG 型実行計画により，in-memory 分散処理の
フォールトトレラントを実現
– Resilient: 回復力のある，すぐに立ち直れる
– DAG: Directed Acyclic Graph，無閉路有向グラフ
11
Cited by Matei Zaharia et al. “Resilient distributed datasets: a
fault-tolerant abstraction for in-memory cluster computing”

DAG 型実行計画の遅延評価
12
// load data from Amazon S3
val data = sc.textFile(“s3n://bucket/data/access-log.txt”)
// transformations
val errors = data.filter(line => line.contains(“error”))
val splitedData = errors.map(line => line.split(“t”))
val elements = splitedData.map(x => x(3))
// action
elements.count
この段階では処理は
実行されていない
この段階になって初
めて処理が実行
RDD のAPI はTransformations とActions に分類
map() , filter() などのTransformations は遅延評価
count() などのActions が評価されたタイミングで実行計画を立てて処理される

Hadoop との処理時間の比較
• 評価実験：100 GB のデータセットに対して10 回の
iteration を実行
13
Cited by Matei Zaharia et al. “Resilient distributed datasets: a
fault-tolerant abstraction for in-memory cluster computing”

「What is Apache Spark ?」まとめ
• Spark はin-memory で分散処理をするためのフ
レームワーク
• Hadoop MapReduce に向かない繰り返し処理などを
処理できる
• RDD という分散メモリの抽象化の技術が根幹となっ
ている
– RDD を処理する実行計画をある程度まとめてから最適化
されている
14

Spark Summit 2014
• 日にち：2014-06-30 - 2014-07-02
– Day 1, 2: Talks
– Day 3: Training
• 会場：The Westin St. Francis in San Francisco
• 参加者：1000 人以上
– 日本人の参加者もちらほら見かけた
– Training も基礎コースとアドバンテージコースの２つ
• それぞれに100 人以上の参加者
16

セッションの分類
• Applications
– 企業での活用事例などの発表
• Developer
– 開発者向けの発表
• Data Science
– Spark を利用した分析事例の発表
– Spark におけるデータ分析関連コンポーネントの発表
18

Spark Summit の報告の前に
ビッグデータテクノロジーのトレンド
19

Key Technologies in Big Data
• In-Memory
• Distributed
• Linear Scaling
• Massively Parallel Processing
20
Scalable で，Hadoop MapReduce より高速に
ビッグデータを処理できる分散システムが必要

ビッグデータ分析に求められているシーン
• Batch
– Hadoop MapReduce により実現されてきたが，実行時間
に課題がある
• Streaming
– よりリアルタイムな分析
• Interactive
– 対話的に分析
– Apache Pig などもあったが，処理時間がかかるので
Interactive とは言いがたい
21

Spark Summit 2014 ハイライト
• Spark は，Apache プロジェクトの中でも最も活発なプ
ロジェクトのひとつ
• Spark は，さまざまな分析シーンの共通エンジンにな
りえる
– 単なる処理が早くなるバッチフレームワークではない！
• Databricks Cloudは，企業組織におけるデータ分析
が意識されたcool なプロダクト
• MLlib, GraphX などの分析に求められる処理を共通
ライブラリとして提供
22

Apache Spark は
最も活発なプロジェクトのひとつ
• Spark’s Role in the Big Data
Ecosystem
– Matei Zaharia (CTO, Databricks)
• 過去６ヶ月のコミット数をほかのプ
ロジェクトと比べてみると圧倒的に
多い
23

Spark が目指すもの
• ビッグデータ分析のための統合プラットフォーム
– 開発者にとって：１つのシステムを学べばよい
– ユーザにとって：アプリをどこでも利用できる
– ディストリビュータにとって：アプリ開発のしやすさ
• ビッグデータ分析の標準ライブラリの提供
24

ビッグデータ分析のための
統合プラットフォーム
25

ビッグデータ分析の標準ライブラリになる
• MLlib:
– Scalable な機械学習ライブラリ
• Classification: Logistic Regression, Naïve Bayes
• Clustering: k-means
• Recommendation: ALS
• Regression: Generalized Linear Regression etc
• Decision Tree:
• GraphX:
– グラフ処理のためのライブラリ
• Page Rank
• Connected Components, Strongly Connected Components
• Shortest Paths
• Triangle Count
26

Databricks Cloud
• Apache Spark 向けのmanaged cloud service
– Beta 版の公開待ち
– http://databricks.com/cloud
• 必要なSpark クラスタをすぐに起動することができる
• ブラウザでNotebooks とDashboards というインタ
フェースを操作することで分析できる
• なかなか凄さが伝わらないのでDemo Video
– http://youtu.be/dJQ5lV5Tldw?t=14m45s
27
データサイエンティストやエンジニアをより自由に

“SparkR: Interactive R programs at Scale “
Shivaram Venkataraman, ZonghengYang (UC Berkeley)
• Spark とR のそれぞれの良さの統合を目指す
– R でSpark の処理を単純に呼び出せる
– R の3rd package をSpark 上で分散処理
• 将来的には，Spark のRDD をR のdata.frame 型として扱える
ようにしたい
• R ユーザとしては，スケーラブルなビッグデータ処理ができる
ようになるのはありがたい
28

Tachyon: Further Improve Spark’s Performance
Haoyuan LI (UC Berkeley)
• a distributed in-memory storage system
• 異なるフレームワーク間でのデータのやり取りをメモリベースで行える
• 処理層とキャッシュ層を分けることで，処理がクラッシュしたときに処理を
復元しやすくなる
29

Hive on Spark
• Apache Hive の処理エンジンをHadoop MapReduce, Tez だけ
でなくApache Spark への対応を目指す
– Spark での実行も可能になることで，より短時間で結果が得られるよ
うになることが期待される
• Hadoop エコシステムの中では，企業におけるデータ分析の
大部分はHive で実現されているので有用
– SQL はインタフェースとしては優れているため
• [HIVE-7292] Hive on Spark
– https://issues.apache.org/jira/browse/HIVE-7292
30

Spark Summit 2014 雑感
• Spark はデータ分析の統合プラットフォームになりえる
– 「より高速に処理できるバッチフレームワーク」だけではない！
– Streaming 処理，対話的処理にも同じコンポーネントで処理すること
ができるのは魅力
• 最近のイベントは動画配信をしてくれるので，talks を聞くのも
いいが人との交流を多く持たないと意味が無いと感じた
– Databricks 社のエンジニア
– Adobe のデータ分析部門のシニアマネージャ
– メキシコやイスラエルのスタートアップのCTO
– などと話せて有意義だった
31

Contribute to Apache Spark
33

How to be a contributor
• Read papers about distributed system, machine
learning and data structure
• Read the documentation about “Contributing to
Spark”
– https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark
• Create issues on Apache Spark JIRA
– https://issues.apache.org/jira/browse/SPARK/
• Communicate with other developers on Apache
Spark Developers List
– http://apache-spark-developers-list.1001551.n3.nabble.com/
• Send your pull requests to Spark Github
– https://github.com/apache/spark
34

MLlib にコミット（しようとしている）
• MLlib：Spark 上で実行できる機械学習の共通ライブラリ
• MLlib のアルゴリズムの要件
– Be widely known
– Be used and accepted (academic citations and concrete use cases can
help justify this)
– Be highly scalable
– Be well documented
– Have APIs consistent with other algorithms in MLlib that accomplish
the same thing
– Come with a reasonable expectation of developer support.
35

直近で取り組んでいる課題
• [SPARK-2335] k-Nearest Neighbor classification and
regression for MLLib
– https://issues.apache.org/jira/browse/SPARK-2335
• [SPARK-2966] Add an approximation algorithm for
hierarchical clustering to MLlib
• [SPARK-3012] Standardized Distance Functions between two
Vectors for MLlib
• 公式ドキュメントの日本語翻訳とか？
– Apache Spark Developers List - Can I translate the
documentations of Spark in Japanese?
• http://apache-spark-developers-list.1001551.n3.nabble.com/Can-I-translate-the-
documentations-of-Spark-in-Japanese-td7538.html
36

Spark Summit 2014 の報告と最近の取り組みについて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Spark Summit 2014 の報告と最近の取り組みについて

Similar to Spark Summit 2014 の報告と最近の取り組みについて (20)

More from Recruit Technologies

More from Recruit Technologies (20)

Recently uploaded

Recently uploaded (14)

Spark Summit 2014 の報告と最近の取り組みについて