10. 最近の主なリリース
• 2015/06/11 1.4.0
• SparkR
• Pipelines API
• Core/Dataframes可視化ツール
• Direct Kafka API for Python
• 2015/03/13 1.3.0
• DataFrame API
• Direct Kafka API
11. DataFrame API
• DataFrameとはテーブル型データ
• SparkのDataFrame APIはPandasとかdplyrと似せてる
• Scala, Python, R(1.4以降)で使える
> head(filter(df, df$waiting < 50)) # an example in R
## eruptions waiting
##1 1.750 47
##2 1.750 47
##3 1.867 48
17. パフォーマンス向上関連(1/3)
• Making Sense of Spark Performance
• Sparkのパフォーマンス改善の方向性を示している
• NSDI 2015に採択
• 以下の条件が った結果、CPUがボトルネックになる
• ハードウェアの性能向上(高速NW、広帯域SSD)
• 十分に最適化されたIO
• Dataformatの最適化(Parquetなどbinary format)
18. パフォーマンス向上関連(2/3)
• How to Boost 100x Performance for Real
World Application w/ Apache Spark
• Intel上海チームが取り組んだSparkの性能改善タ
スクの共有
• SPARK-2213, SPARK-7165, SPARK-2661,
SPARK-2713
19. パフォーマンス向上関連(3/3)
• プロジェクトTungsten
• From DataFrames to Tungsten: A Peek into
Spark's Future
• DataFramesとTungstenの関係、今後の展開
• http://www.slideshare.net/databricks/2015-0616-spark-summit
• Deep Dive into Project Tungsten: Bringing
Spark Closer to Bare Metal
• Tungstenで行っていること、開発ロードマップ
• https://issues.apache.org/jira/browse/SPARK-7075
20. Tungsten: Preparing Spark for Next 5 Year
CPU効率を上げることで、実行速度を上げる
(1)実行時コード生成
(2)局所性を生かしたキャッシュ
(3)オフヒープメモリ管理
実装方針:
出典: http://www.slideshare.net/databricks/2015-0616-spark-summit