Spark Summit 2015 参加報告

Spark Summit 2015 参加報告
神田勝規 @potix2
Spark Casual Talk#1 2015.06.23

自己紹介
神田勝規（かんだかつのり）
株式会社サイバーエージェント
アドテク本部 AMoAd所属
サーバーサイドエンジニア(OS/分散システムが専門)
!
potix2@twitter/github
※毎月LispMeetup(shibuya.lisp)を開催してます

Sparkと私
• 業務では、広告システムのデータ分析基盤として利用
• Sparkゼミ
• 社内の研究支援制度を使って発足
• Sparkへコントリビュートするために6名で活動中
• Sparkのソースコードリーディング会
• もくもく会/合宿
• 現在３名がコントリビューターに

アジェンダ
• Sparkの紹介
• Spark Summit 2015 振り返り
• イベント概要
• セッション紹介

Sparkとは？
分散環境向けの高速な汎用計算エンジン
計算結果をメモリにキャッシュするので、従来のMR
と比べて繰り返し計算が高速
ロジスティック回帰(Hadoop vs Spark)

Sparkを構成するコンポーネント

Sparkを取り巻くエコシステム
出典: http://www.slideshare.net/databricks/spark-community-update-spark-summit-san-francisco-2015

コミュニティも成長を続けている
June 2014 June 2015
total contributors 255 730
contributors/
month
75 130
lines of code 175,000 400,000
出典: http://www.slideshare.net/databricks/spark-community-update-spark-summit-san-francisco-2015

さらに開発規模が拡大していく予感・・・
出典: http://jp.techcrunch.com/2015/06/16/20150615ibm-pours-researchers-and-resources-into-apache-spark-project/

最近の主なリリース
• 2015/06/11 1.4.0
• SparkR
• Pipelines API
• Core/Dataframes可視化ツール
• Direct Kafka API for Python
• 2015/03/13 1.3.0
• DataFrame API
• Direct Kafka API

DataFrame API
• DataFrameとはテーブル型データ
• SparkのDataFrame APIはPandasとかdplyrと似せてる
• Scala, Python, R(1.4以降)で使える
> head(ﬁlter(df, df$waiting < 50)) # an example in R
## eruptions waiting
##1 1.750 47
##2 1.750 47
##3 1.867 48

Spark Summit 2015
振り返り

イベント概要
日時: 2015年6月15日∼17日
場所: HILTON SAN FRANCISCO UNION SQUARE
!
1日目午前: キーノート
1日目午後: 3トラック(28セッション)
2日目午前: キーノート
2日目午後: 3トラック(28セッション)
3日目: チュートリアル
メイン会場の様子

全体を通しての印象
• データ分析に関わる内容が多かった
• データ分析基盤としての活用事例が多い
• DataFrame API/SparkRの登場でユーザー層が
広がりそう
• 性能改善に関する取り組みが活発になってきた
• 産学連携しながらコミュニティが成長している

SparkSQL/DataFrameAPI関連
• Spark DataFrames: Simple and Fast Analysis
of Structured Data
• DataFrame APIのチュートリアル

パフォーマンス向上関連(1/3)
• Making Sense of Spark Performance
• Sparkのパフォーマンス改善の方向性を示している
• NSDI 2015に採択
• 以下の条件がった結果、CPUがボトルネックになる
• ハードウェアの性能向上（高速NW、広帯域SSD）
• 十分に最適化されたIO
• Dataformatの最適化(Parquetなどbinary format)

• How to Boost 100x Performance for Real
World Application w/ Apache Spark
• Intel上海チームが取り組んだSparkの性能改善タ
スクの共有
• SPARK-2213, SPARK-7165, SPARK-2661,
SPARK-2713

• プロジェクトTungsten
• From DataFrames to Tungsten: A Peek into
Spark's Future
• DataFramesとTungstenの関係、今後の展開
• http://www.slideshare.net/databricks/2015-0616-spark-summit
• Deep Dive into Project Tungsten: Bringing
Spark Closer to Bare Metal
• Tungstenで行っていること、開発ロードマップ
• https://issues.apache.org/jira/browse/SPARK-7075

Tungsten: Preparing Spark for Next 5 Year
CPU効率を上げることで、実行速度を上げる
(1)実行時コード生成
(2)局所性を生かしたキャッシュ
(3)オフヒープメモリ管理
実装方針：
出典: http://www.slideshare.net/databricks/2015-0616-spark-summit

Tungsten: ベンチマーク結果

Tungstenが描く将来
Uniﬁed API, One Engine, Automatically Optimized

まとめ
• DataFrame API・Spark SQLなどデータ分析の基
盤となる機能は継続して開発が続いていく
• データ分析基盤として活用するユーザー企業が増え
てきている
• ユーザー企業が増え続ける中、性能改善へのニーズ
が増してきている

参考資料(1/2)
• Spark
• https://spark.apache.org/
• Spark 1.4 リリースノート
• https://spark.apache.org/releases/spark-release-1-4-0.html
• Spark Summit 2015 Agenda
• https://spark-summit.org/2015/schedule/
• Spark Summit 2015 振り返り記事
• https://databricks.com/blog/2015/06/19/a-look-back-at-spark-
summit-2015.html
• Slideshare
• http://www.slideshare.net/databricks

参考資料(2/2)
• Project Tungsten
• https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-
closer-to-bare-metal.html
• https://issues.apache.org/jira/browse/SPARK-7075
• Catalyst Query Optimizer
• https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-
optimizer.html
• http://people.csail.mit.edu/matei/papers/2015/sigmod_spark_sql.pdf

Spark Streaming関連で気になるセッション
• Spark and Spark Streaming at Netﬂix
• NetﬂixでのSpark活用事例
• 4兆5千億 Events/Day(17GB/s peak)
• Recipes for Running Spark Streaming
Applications in Production
• Spark StreamingのTips紹介
• スケールアップの方法、高速化、Direct Kafka
APIの使い方など

Spark Summit 2015 参加報告

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Spark Summit 2015 参加報告

Similar to Spark Summit 2015 参加報告 (20)

More from Katsunori Kanda

More from Katsunori Kanda (12)

Spark Summit 2015 参加報告