1. Spark Meetup at 2014/09/08
G r a p h X は
S c a l a エンジニアにとっての
ブルーオーシャン
@teppei_tosa
https://www.flickr.com/photos/exalthim/337922734
2. Who am I ?
@teppei_tosa
F i n a n c e I T E n g i n e e r
!
Asakusa / Hadoop /
Scala / Play Framework /
Spark / GraphX
https://www.flickr.com/photos/exalthim/337922734
9. G r a p h X は
まだまだ未成熟
• Web上の情報少ない
• R の igraph が揃えて
いるのような関数が全
く揃っていない
https://www.flickr.com/photos/exalthim/337922734
https://www.flickr.com/photos/katedot/8272997562
12. S c a l a エンジニアは有利
• ScalaのCollection APIに似たAPIでグラ
フデータを扱うことができる
• 頻出する再帰処理の実装がし易い
• 関数の実装がし易い
https://www.flickr.com/photos/exalthim/337922734
13. O t h e r G r a p h - p a r a l l e l
C o m p u t a t i o n S y s t e m
Giraph GraphLab GraphX
Speed Slow Ver y Fa s t F a s t
New S t a b l e New New
Lang Java P y thon S c a l a
https://www.flickr.com/photos/exalthim/337922734
( P y t h o n / J a v a )
ETL D i ff i c u l t Easy Easy
L i b NO Ver y Good Few
14. G r a p h X はブルーオーシャン!
• GraphXはグラフ構造データの並列分散処理機構
として優れている
• グラフ構造データを扱えるようになることでこれ
まで実現できなかったことができるようになる
• GraphX はまだ未熟
• Scalaエンジニアはグラフデータの扱いに優位!
https://www.flickr.com/photos/exalthim/337922734
15. S p a r k- J o b S e r v e r
• “Spark as a Service”
• SparkのjobとcontextのREST APIを提供
• いかなる環境・言語からもSparkを扱うことが可能
• Job間でひとつのcontextを共有
• Job間でキャッシュされたRDDを共有
• 同期/非同期API。JOB結果をJSON応答。
https://www.flickr.com/photos/exalthim/337922734