Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ビッグデータ分析基盤Sparkの
最新動向とその活⽤用
-‐‑‒  Spark  SUMMIT  EAST  2015  –
2015年年3⽉月17⽇日〜~18⽇日
⼤大⽊木  基⾄至
ohki@inulab.sys.es.osaka-‐‑‒u...
Spark Summit EAST 2015 大木基至	
 2	
01.  Spark  と  カンファレンス概要
Spark  とは?
•  Sparkとは
–  公式サイトでは、
  ⇛Apache  Sparkは⼤大規模データ処理理のため...
Spark Summit EAST 2015 大木基至	
 3	
Spark  とは?
•  Sparkとは
–  UC  Berkeleyの研究組織「AMPLab.」で開発されたOSS
–  開発の中⼼心企業は⽶米Databricks社
• ...
Spark Summit EAST 2015 大木基至	
 4	
Spark  とは?
開発履履歴
⽇日付 Ver. 内容
2009年年 - UC Berkleyの研究組織「AMPLab.」にて開発開始
2010年年 - OSS化。その後Apa...
Spark Summit EAST 2015 大木基至	
 5	
Spark  とは?
•  Hadoopとの⽐比較ーレイヤスタック図
–  下回りの構成は同じ。
–  MapReduceがSparkに置き換わったイメージ
Spark
HDFS...
Spark Summit EAST 2015 大木基至	
 6	
Spark  とは?
•  Hadoopとの⽐比較ーデータ処理理の流流れ
MapReduceはディスクベースで処理理
各ステージ(処理理の単位)処理理はオンメモリで実⾏行行
M
...
Spark Summit EAST 2015 大木基至	
 7	
Spark  とは?
•  Hadoopとの⽐比較
–  共通点
•  ASF(Apache  Software  Foundation)のトップレベルPJ
•  分散ファイルシ...
Spark Summit EAST 2015 大木基至	
 8	
開催概要
•  開催⽇日:2015/03/18〜~2015/03/19(2⽇日間)
–  3/18:午前:Keynote
                午後:3  tracks...
Spark Summit EAST 2015 大木基至	
 9	
会場の雰囲気
Spark Summit EAST 2015 大木基至	
 10	
Silver
Sponsors
Platinum
Gold
データウェアハウス系企業ももちろん多いが、
データサイエンス  /  データを所持した企業も多い
Spark Summit EAST 2015 大木基至	
 11	
2014年年のSpark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
Spark Summit EAST 2015 大木基至	
 12	
2014年年のSpark
Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」
Contributors  per  Month  to  Spark
http...
Spark Summit EAST 2015 大木基至	
 13	
Spark  Summit  Keynote  
Spark Summit EAST 2015 大木基至	
 14	
2015年年の焦点は以下の2つ
•  1. Data Science
–  データフレームをRDDで(2015年年3⽉月リリースのSpark 1.3から)
–  Machine...
Spark Summit EAST 2015 大木基至	
 15	
New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
所感:Sparkがデータソースとそれらを分析するツ...
Spark Summit EAST 2015 大木基至	
 16	
Harnessing  the  Power  of  Spark  with  Databricks  Cloud
•  Ion Stoica(CEO at databric...
Spark Summit EAST 2015 大木基至	
 17	
Harnessing  the  Power  of  Spark  with  Databricks  Cloud
•  Databricks Cloud プラットフォーム
Spark Summit EAST 2015 大木基至	
 18	
Developers  Track  
Developers Track の全体概要
•  殆どのスピーカはsparkが「インメモリ型処理理を⾏行行うから早い」と
いうキーワー...
Spark Summit EAST 2015 大木基至	
 19	
Developers  Track  
•  Beyond SQL: Spark SQL Abstractions For The Common
Spark Job - Mic...
Spark Summit EAST 2015 大木基至	
 20	
Developers  Track  
•  Spark User Concurrency and Context/RDD Sharing
at Production Scal...
Spark Summit EAST 2015 大木基至	
 21	
Developers  Track  
•  Power Hive with Spark(Hive on Spark) - Chao Sun
(Cloudera), Marce...
Spark Summit EAST 2015 大木基至	
 22	
Data  Science  Track  
Data Science Track の全体概要
•  各ライブラリを使った分析事例例
–  2014年年の前回から事例例が増えて...
Spark Summit EAST 2015 大木基至	
 23	
Spark  ML  Pipelines
•  データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供
①Tokenizer:
データの選択/変換しトークン化
②hashi...
Spark Summit EAST 2015 大木基至	
 24	
Spark  ML  Pipelines
•  Practical Machine Learning Pipelines with Mllib
–  Joseph Bradle...
Spark Summit EAST 2015 大木基至	
 25	
Spark  Mlib
•  実⽤用的な機械学習ライブラリを提供
–  K-means, Logistic regression…など
•  ただし、アルゴリズムによって実装品...
Spark Summit EAST 2015 大木基至	
 26	
Spark  Mlib
•  Un-collaborative filtering: Giving the right
recommendations when your us...
Spark Summit EAST 2015 大木基至	
 27	
Spark  Streaming
•  ストリームデータ︎のほぼリアルタイム処理理を提供する  
–  Scala, Javaのみだったが、Spark 1.3以降降でPytho...
Spark Summit EAST 2015 大木基至	
 28	
Spark  Streaming
•  Streaming machine learning in Spark
–  Jeremy Freeman (HHMI Janelia ...
Spark Summit EAST 2015 大木基至	
 29	
(紹介)  Graph  X  
•  並列列グラフ計算処理理システム
–  グラフ構造データと表構造データの並列列分散処理理をひとつのシステム
で実装することが可能
•  分...
Spark Summit EAST 2015 大木基至	
 30	
Workshop
Data Science Workshop
n  Databricks  Cloud  環境の紹介
n  機械学習の各⼿手法の説明
n  Kaggle ...
Spark Summit EAST 2015 大木基至	
 31	
Workshop
•  Workshopの所感
–  DataBricks Cloud便便利利
•  GUIでサクッとVMをデプロイしたりクローン作成が可能
•  マルチ⾔言語...
Spark Summit EAST 2015 大木基至	
 32	
Meetup  
•  データサイエンス系のMeetupも周辺で多数開催
–  DataDriven(2015/03/17 )
•  NYCで⽉月1度度開催
•  データにまつ...
Spark Summit EAST 2015 大木基至	
 33	
Data  Driven  NYC  #35
•  #35のテーマ
–  Swiftkeyの開発背景(Swiftkey, CTO)
•  キーボードアプリ。⼊入⼒力力ミスを学習...
Spark Summit EAST 2015 大木基至	
 34	
PyData  NYC
•  テーマ
–  Project Jupyter for Data Science
–  Matplotlib and the IPython not...
Spark Summit EAST 2015 大木基至	
 35	
まとめ
•  Sparkとは
–  今データサイエンスの中で今もっともアクティブなプロジェクト
•  Spark Summit概要
–  Hadoopの時と異異なりデータサイエ...
Upcoming SlideShare
Loading in …5
×

150521_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

833 views

Published on

ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

Published in: Technology
  • Be the first to comment

150521_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

  1. 1. ビッグデータ分析基盤Sparkの 最新動向とその活⽤用 -‐‑‒  Spark  SUMMIT  EAST  2015  – 2015年年3⽉月17⽇日〜~18⽇日 ⼤大⽊木  基⾄至 ohki@inulab.sys.es.osaka-‐‑‒u.ac.jp
  2. 2. Spark Summit EAST 2015 大木基至 2 01.  Spark  と  カンファレンス概要 Spark  とは? •  Sparkとは –  公式サイトでは、   ⇛Apache  Sparkは⼤大規模データ処理理のための⾼高速で汎⽤用的なエンジン
  3. 3. Spark Summit EAST 2015 大木基至 3 Spark  とは? •  Sparkとは –  UC  Berkeleyの研究組織「AMPLab.」で開発されたOSS –  開発の中⼼心企業は⽶米Databricks社 •  ラボからIon  Stoica⽒氏らがスピンアウトして設⽴立立したベンチャー企業 –  分散クラスタ型のデータ処理理エンジンで、インメモリでビッグデータ を並列列分散処理理する –  ビッグデータの分散処理理としてはhadoopが有名であるが、ストレー ジベースの処理理⽅方式のため、あまり⾼高速ではない –  対してsparkはデータを⼀一旦メモリにキャッシュし、メモリ上で処理理 を⾏行行うため、繰り返し処理理ではとても⾼高速
  4. 4. Spark Summit EAST 2015 大木基至 4 Spark  とは? 開発履履歴 ⽇日付 Ver. 内容 2009年年 - UC Berkleyの研究組織「AMPLab.」にて開発開始 2010年年 - OSS化。その後Apacheソフトウェア財団にコードを寄贈 2012年年10⽉月 0.6.0 スタンドアロンモード、Java APIサポート 2013年年2⽉月 0.7.0 Python APIサポート、ストリーミングサポート 2013年年9⽉月 0.8.0 UIにジョブのダッシュボードが追加、Mlibサポート 2014年年2⽉月 0.9.0 Scala2.10サポート、GraphXサポート 2014年年5⽉月 1.0.0 Spark SQLサポート、Mlibのアルゴリズム充実 2014年年11⽉月 1.1.0 マイナーリリース 2014年年12⽉月 1.2.0 パフォーマンス改善、Spark StreamingのHAサポート 2015年年3⽉月 1.3.0 DataFrames APIサポート 2015年年4⽉月 1.3.1 メンテナンスリリース
  5. 5. Spark Summit EAST 2015 大木基至 5 Spark  とは? •  Hadoopとの⽐比較ーレイヤスタック図 –  下回りの構成は同じ。 –  MapReduceがSparkに置き換わったイメージ Spark HDFS MapReduce Spark SQL MlibHive Sqoop YARN Mesos SparkHadoop YARN:分散処理理フレームワーク。アプリケーションからのリソース要求のハンドリングやスケジューリングを⾏行行う Mesos:分散アプリケーション  or フレームワークに対して、効率率率的なリソース分離離、共有を提供するクラスタ管理理ソフト … … HDFS YARN Mesos
  6. 6. Spark Summit EAST 2015 大木基至 6 Spark  とは? •  Hadoopとの⽐比較ーデータ処理理の流流れ MapReduceはディスクベースで処理理 各ステージ(処理理の単位)処理理はオンメモリで実⾏行行 M Spark Hadoop R R R HDFS 処理理 読 読 読書 書 書 S S S HDFS 処理理 読 読 読書 書 書
  7. 7. Spark Summit EAST 2015 大木基至 7 Spark  とは? •  Hadoopとの⽐比較 –  共通点 •  ASF(Apache  Software  Foundation)のトップレベルPJ •  分散ファイルシステム(HDFS)からファイルをロード可能 •  MapReduceプログラミングモデル •  SQLのインタフェイスや機械学習等のライブラリが充実 –  相違点 •  メモリ上にデータをキャシュして処理理可能 •  Scala,  Pythonのユーザインタフェイスでインタラクティブに操作可能
  8. 8. Spark Summit EAST 2015 大木基至 8 開催概要 •  開催⽇日:2015/03/18〜~2015/03/19(2⽇日間) –  3/18:午前:Keynote                午後:3  tracks(27  sessions)                                                -‐‑‒  Developers,  Applications,  Data  Science –  3/19:Workshop •  開催場所:The  Sheraton,  New  York •  開催回数: –  Spark  Summit  East  としては初開催 –  Spark  Summit  2015  がサンフランシスコで2015年年7⽉月開 催予定 •  これまで、Spark  Summit  2013、2014がいずれもサンフランシ スコで
  9. 9. Spark Summit EAST 2015 大木基至 9 会場の雰囲気
  10. 10. Spark Summit EAST 2015 大木基至 10 Silver Sponsors Platinum Gold データウェアハウス系企業ももちろん多いが、 データサイエンス  /  データを所持した企業も多い
  11. 11. Spark Summit EAST 2015 大木基至 11 2014年年のSpark http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
  12. 12. Spark Summit EAST 2015 大木基至 12 2014年年のSpark Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」 Contributors  per  Month  to  Spark http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
  13. 13. Spark Summit EAST 2015 大木基至 13 Spark  Summit  Keynote  
  14. 14. Spark Summit EAST 2015 大木基至 14 2015年年の焦点は以下の2つ •  1. Data Science –  データフレームをRDDで(2015年年3⽉月リリースのSpark 1.3から) –  Machine Learning Pipelinesの開発も引き続き –  R interfaceの充実(2015/6リリースのSpark 1.4でSparkR!) 所感:2015年年度度はデータサイエンス系の⼈人材を引き込もうとしている •  2. Platform Interfaces Plug in data sources and algorithms –  外部のData Soucesインターフェースを充実させる •  MySQL、Hive、Hbaseとのインターフェース。例例えば、SQLライ クな⽂文法で呼べるようになる –  Goalとして、”unified engine across data sources” New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
  15. 15. Spark Summit EAST 2015 大木基至 15 New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks) 所感:Sparkがデータソースとそれらを分析するツールを統合化した       コアエンジンになることを⽬目指している
  16. 16. Spark Summit EAST 2015 大木基至 16 Harnessing  the  Power  of  Spark  with  Databricks  Cloud •  Ion Stoica(CEO at databricks)が講演 •  Databricks Cloudのご紹介 –  Databricks社のクラウド型の統合分析プラットフォーム •  Notebook型のインターフェース •  Scala, Python, SQL •  クラウド基盤はAWSで、計算エンジンがSpark + Cluster Manager → Notebook型イン ターフェースで分析 ダッシュボードとし て共有 分析がジョブと して実⾏行行される
  17. 17. Spark Summit EAST 2015 大木基至 17 Harnessing  the  Power  of  Spark  with  Databricks  Cloud •  Databricks Cloud プラットフォーム
  18. 18. Spark Summit EAST 2015 大木基至 18 Developers  Track   Developers Track の全体概要 •  殆どのスピーカはsparkが「インメモリ型処理理を⾏行行うから早い」と いうキーワードをセッションの中に盛り込んでいた •  SQLで操作したいという欲求も多い –  Hadoopの世界と同じ –  やはりDB技術者は多い •  パラメータチューニングに関する話題はほとんど無かった –  プロダクトの紹介が多い •  javaは嫌 –  コンパイル⾔言語は⼤大変。。 –  Python、R好きの⼈人から注⽬目を集めている
  19. 19. Spark Summit EAST 2015 大木基至 19 Developers  Track   •  Beyond SQL: Spark SQL Abstractions For The Common Spark Job - Michael Armbrust (Databricks) –  ジョブの作成コストがHadoopよりも低い •  コード量量が少ない –  様々なAPIが⽤用意されているので他のミドルとの連携が⽤用意 •  import側:JSON, Hive, MySQL, HDFS, S3等 •  export側:dBase, cassandram HBASE, elasticsearch, amazonRedshift
  20. 20. Spark Summit EAST 2015 大木基至 20 Developers  Track   •  Spark User Concurrency and Context/RDD Sharing at Production Scale - Farzad Aref (Zoomdata) –  ビジュアライゼーションツールの1つであるZoomdataの紹介 –  Zoomdataは様々なデータソース(ex. S3, HDFS, RDB)を 扱えるがSparkにも対応している –  Spark側でジョブを実⾏行行するようにコネクタ(ドライバ)を作 成したので、インメモリでデータを解析する仕組みを Zoomdata上から活⽤用可能 –  HDFS上のデータならspark経由でデータを扱ったほうが⾼高速で 良良い
  21. 21. Spark Summit EAST 2015 大木基至 21 Developers  Track   •  Power Hive with Spark(Hive on Spark) - Chao Sun (Cloudera), Marcelo Vanzin (Cloudera) –  HiveはSQLライクな⾔言語でHadoopのジョブを実⾏行行できるインタフェ イスであり、様々な企業で利利⽤用されているが、map/reduce処理理のた め⾼高速な処理理は期待できない –  Hiveの処理理エンジンとしてSparkを利利⽤用する事でレスポンスタイムを 向上できる –  hiveの機能の⼀一部として開発が進んでいる(HIVE-7292) •  著名な企業からコントリビュータが参画 –  Hive1.1の機能の⼀一部としてHive on Spark(HoS) HDFS Spark Mesos Hive YARN HoS
  22. 22. Spark Summit EAST 2015 大木基至 22 Data  Science  Track   Data Science Track の全体概要 •  各ライブラリを使った分析事例例 –  2014年年の前回から事例例が増えている •  前回は使ってみました系 / 試してみましたが多かった –  Mlib, Graph X, Spark Streamingなどを使った事例例 –  実際に動いてるデモが多く、使えることをアピールしている •  コードの実装例例も⾒見見ることができた •  Sparkによるデータ分析の効率率率化のための検証 –  SparkRの現状報告やR onlyよりどれだけ処理理が早いかなどの検証 –  Deep LearningをするためのGPU演算をSparkで分散実⾏行行 *  講演の様⼦子はYoutubeで公開
  23. 23. Spark Summit EAST 2015 大木基至 23 Spark  ML  Pipelines •  データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供 ①Tokenizer: データの選択/変換しトークン化 ②hashingTF: データの特徴抽出(TF-‐‑‒IDF) ③lr: (パラメータを変化させながら)モデル 作成 ML  Pipelinesの⼀一例例 ④Pipelines実⾏行行 ① ② ③ ④
  24. 24. Spark Summit EAST 2015 大木基至 24 Spark  ML  Pipelines •  Practical Machine Learning Pipelines with Mllib –  Joseph Bradley (Databricks) –  ML Pipelinesの紹介 •  Spark 1.2以上で使⽤用可能だが、まだ実験的な段階 •  他にも、グリッドサーチによるパラメータ選択・Cross Validationによる モデル選択なども実装できている •  今後、データ選択、変換、特徴抽出のアルゴリズムなどをさらに実装して いくとFuture Plan…だが、Roadmap的にやること⼭山積みのまま、Spark 1.3もリリースした印象 •  データサイエンスの中でユースケースの話しは特になし –  まだ使える⼿手法が限定されている
  25. 25. Spark Summit EAST 2015 大木基至 25 Spark  Mlib •  実⽤用的な機械学習ライブラリを提供 –  K-means, Logistic regression…など •  ただし、アルゴリズムによって実装品質が揃ってないので注意 •  Scikit-learn / R に追いつけるか… –  Scala, Python, Javaで書ける •  Sparkのバイナリをダウンロードするとソースコードもついてくる –  数⾏行行程度度で機械学習が回せるのは便便利利 –  ⾃自学習には、Spark Summit 2014のハンズオン資料料が良良い •  https://databricks-training.s3.amazonaws.com/movie- recommendation-with-mllib.html
  26. 26. Spark Summit EAST 2015 大木基至 26 Spark  Mlib •  Un-collaborative filtering: Giving the right recommendations when your users aren’t helping you –  Leah McGuire (PhD, Salesforce) –  協調フィルタリングの実装とその分析事例例 データ分析のスケールがほしい ⼀一からは作りたくない・Mlibが便便利利
  27. 27. Spark Summit EAST 2015 大木基至 27 Spark  Streaming •  ストリームデータ︎のほぼリアルタイム処理理を提供する   –  Scala, Javaのみだったが、Spark 1.3以降降でPythonもサポート –  多くのストリーミングデータ・ソースをそのまま読み込める •  Socket, Flume, Kafka, Twitterなど(Fluentdはまだ未実装) –  Discretized Stream(= ⼀一連のRDD) •  受けっ取ったストリーミングデータをn秒ごとにRDDに切切り出す •  あくまでマイクロバッチ(500ms ~ 30s) •  10msクラスなら      Flume / Stormが適切切 –  イベントドリブンには 少し使いづらいかも •  ずっと演算しているので CPU / メモリは⾷食う 参考(DMMのビッグデータ分析のご紹介2  〜~Sparkによるリアルタイムレコメンド 〜~):https://prezi.com/iz1d_sefm1q9/dmmcom-dmm2-spark/
  28. 28. Spark Summit EAST 2015 大木基至 28 Spark  Streaming •  Streaming machine learning in Spark –  Jeremy Freeman (HHMI Janelia Research Center) •  Neuroscientist using computation to understand the brain –  Mlib+Spark Streming •  K-means Streaming, Streaming Linear Regression, Time Series analysis… など •  個⼈人的には⼀一番しっかりSparkらしい分析をしていた
  29. 29. Spark Summit EAST 2015 大木基至 29 (紹介)  Graph  X   •  並列列グラフ計算処理理システム –  グラフ構造データと表構造データの並列列分散処理理をひとつのシステム で実装することが可能 •  分散格納されたグラフ構造データは分散環境間で情報の共有が必要で、並 列列分散処理理⾃自体に適さないところを解決している •  そもそもグラフ解析とは? –  表構造で扱いづらいデータが増えてきた(SNS, Networkなど) •  繋がりの抽出 •  軸の抽出 •  距離離の計測 •  影響の計測 •  Graph X Advent Calendar 2014 –  http://www.adventar.org/calendars/491 •  Graph X だけの書籍も
  30. 30. Spark Summit EAST 2015 大木基至 30 Workshop Data Science Workshop n  Databricks  Cloud  環境の紹介 n  機械学習の各⼿手法の説明 n  Kaggle  コンテストデータを使った Hands  On …さらに、RecSys2015への投稿 ■Sparkの内部アーキテクチャの解説 ■ジョブ実⾏行行の仕組み解説 ■GUIツールの解説 ■(メモリ周り中⼼心)パラメータ項⽬目の説明 とおおまかな設定⽅方法解説 ■DataBricks Cloudを使⽤用してのSparkジョ ブの実⾏行行 - データロードの仕⽅方、関数の使い⽅方 - ジョブを実⾏行行してGUI上からジョブを閲覧等 Advance  Developer  Workshop
  31. 31. Spark Summit EAST 2015 大木基至 31 Workshop •  Workshopの所感 –  DataBricks Cloud便便利利 •  GUIでサクッとVMをデプロイしたりクローン作成が可能 •  マルチ⾔言語が便便利利(SQLでデータ取ってきて、Pythonで機械学習を実施 みたいなことができた) •  シェアするのも便便利利 –  (Developers Workshopの)アンケート結果(⾔言語毎の習熟度度) •  Java、SQL使いが多い •  Scala、Pythonは初⼼心者 •  Rは知らない →  1⽇日⽬目のキーノートではデータサイエンティストを取り込む流流れを 述べていたが、現時点ではSpark Developersに興味がある⼈人はデータ サイエンティストでは無い様⼦子 –  Wireless LAN障害で2時間程、何もできず •  しまいにはホテルの公衆lanを使えという始末
  32. 32. Spark Summit EAST 2015 大木基至 32 Meetup   •  データサイエンス系のMeetupも周辺で多数開催 –  DataDriven(2015/03/17 ) •  NYCで⽉月1度度開催 •  データにまつわることをなんでも •  IT企業のCEO,CTOが発表することも多い •  無料料でbloombergでご飯も •  講演はYoutubeチャンネルで配信 –  NYC Data Science(2015/03/18) •  Spark DataFrames and ML Pipelines for Large-Scale Data Science •  Databricks社のエンジニアも発表した模様 –  PyData NYC(2015/03/20) •  Python + Data Science •  ⽇日本でも現在5回⽬目(5/22)。いつも参加登録が殺到 –  http://pydatatokyo.connpass.com/
  33. 33. Spark Summit EAST 2015 大木基至 33 Data  Driven  NYC  #35 •  #35のテーマ –  Swiftkeyの開発背景(Swiftkey, CTO) •  キーボードアプリ。⼊入⼒力力ミスを学習し、⾃自動で訂正してくれる。よく使う ⾔言葉葉、⽂文脈に応じた次の⾔言葉葉を予測してくれる –  時系列列データベースInfluxDB(Paul Dix@InfluxDB, CEO) •  GO⾔言語、時系列列データベース •  分析のためのDB –  Sparkの背景(Ion Stoica@Databricks, CEO) •  ポイント –  データを活かすまでの事前作業はとてつもなく⼤大変 •  Swiftkeyの単語数は1兆語! –  データベースも分析をするために使⽤用されることを前提とした作りが 前提になっている 1.  Datadriven:http://datadrivennyc.com/ 2.  Datadriven Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
  34. 34. Spark Summit EAST 2015 大木基至 34 PyData  NYC •  テーマ –  Project Jupyter for Data Science –  Matplotlib and the IPython notebook –  shapeshifting for your data –  A couple of tips for winning data science competitions •  ポイント –  Jupyter(Julia + Python + R) •  マルチ⾔言語を1つのnotebookインタフェースで分析できるように –  分析、レジュメ作成、プレゼン、公開まですべてnotebookで •  データサイエンティストの分析をnotebookに集めようとしている •  Notebookインタフェースを使ってプレゼンも 1.  PyData:http://datadrivennyc.com/ 2.  PyData Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
  35. 35. Spark Summit EAST 2015 大木基至 35 まとめ •  Sparkとは –  今データサイエンスの中で今もっともアクティブなプロジェクト •  Spark Summit概要 –  Hadoopの時と異異なりデータサイエンティストを巻き込もうとしてい る •  各トラックとWorkshopの内容 –  ネクストHadoop。メモリに収まりきらないデータの分析でも殆どの 場合でHadoopよりも早い –  Mlib / SparkStreaming / Graph X / SparkR等の開発・事 例例・検証もまだまだ出てくる •  その他関連MTG –  Notebookインターフェースでの分析が今のトレンド –  R, Python, (Juliaも?)がデータサイエンスの⾔言語の中⼼心

×