SlideShare a Scribd company logo
The f{ea,u}ture of 
Apache Spark 
2014-08 ATL 研究会 
Yu Ishikawa 
1
アジェンダ 
• What is Apache Spark? 
• Spark Summit 2014 報告 
• Contribute to Apache Spark 
• Q&A 
基礎知識 
現状と将来性 
取り組み 
2
What is Apache Spark? 
3
What is Apache Spark ? 
Apache Spark is a Hadoop-compatible 
computing system that makes big data analysis 
drastically faster, through in-memory 
computation, and simpler to write, through 
easy APIs in Java, Scala and Python. 
4
The history of Apache Spark 
• UC Berkeley AMPLab のビッグデータ分析をターゲッ 
トとしたBDAS というプロジェクトの中から生まれた 
– https://amplab.cs.berkeley.edu/ 
• Matei Zaharia さんがUC Berkeley の博士課程の研 
究でSpark を生み出す 
– http://people.csail.mit.edu/matei/ 
• Databricks 社が設立されてSpark が展開 
– Matei Zaharia さんはDatabricks 社のCTO 
– http://databricks.com/ 
5
BDAS: Berkeley Data Analytics Stack 
• Is an open source software stack that 
integrates software components being built by 
the AMPLab to make sense of Big Data. 
6
なぜSpark のようなプロダクトが 
求められているのか? 
7
Hadoop MapReduce の欠点のひとつ 
• ディスクの入出力がボトルネックになるので,データ 
を再利用するような繰り返し処理などに向かない 
8
What’s Apache Spark again ? 
• in-memory で分散処理をするためのフレームワーク 
• Hadoop MapReduce には向いていないアルゴリズムを実 
装できる 
• Iterative Algorithm 
• k-means のような機械学習アルゴリズムやネットワーク分析アルゴリ 
ズム 
• 対話的な実行 
– Scala を拡張したコンソールでSpark の対話的な実行もできる 
9
単純にIn-memory だから 
Spark は優れているのか? 
10
RDD:Resilient Distributed Datasets 
• DAG 型実行計画により,in-memory 分散処理の 
フォールトトレラントを実現 
– Resilient: 回復力のある,すぐに立ち直れる 
– DAG: Directed Acyclic Graph,無閉路有向グラフ 
11 
Cited by Matei Zaharia et al. “Resilient distributed datasets: a 
fault-tolerant abstraction for in-memory cluster computing”
DAG 型実行計画の遅延評価 
12 
// load data from Amazon S3 
val data = sc.textFile(“s3n://bucket/data/access-log.txt”) 
// transformations 
val errors = data.filter(line => line.contains(“error”)) 
val splitedData = errors.map(line => line.split(“t”)) 
val elements = splitedData.map(x => x(3)) 
// action 
elements.count 
この段階では処理は 
実行されていない 
この段階になって初 
めて処理が実行 
RDD のAPI はTransformations とActions に分類 
map() , filter() などのTransformations は遅延評価 
count() などのActions が評価されたタイミングで実行計画を立てて処理される
Hadoop との処理時間の比較 
• 評価実験:100 GB のデータセットに対して10 回の 
iteration を実行 
13 
Cited by Matei Zaharia et al. “Resilient distributed datasets: a 
fault-tolerant abstraction for in-memory cluster computing”
「What is Apache Spark ?」まとめ 
• Spark はin-memory で分散処理をするためのフ 
レームワーク 
• Hadoop MapReduce に向かない繰り返し処理などを 
処理できる 
• RDD という分散メモリの抽象化の技術が根幹となっ 
ている 
– RDD を処理する実行計画をある程度まとめてから最適化 
されている 
14
Spark Summit 2014 報告 
15
Spark Summit 2014 
• 日にち:2014-06-30 - 2014-07-02 
– Day 1, 2: Talks 
– Day 3: Training 
• 会場:The Westin St. Francis in San Francisco 
• 参加者:1000 人以上 
– 日本人の参加者もちらほら見かけた 
– Training も基礎コースとアドバンテージコースの2つ 
• それぞれに100 人以上の参加者 
16
17
セッションの分類 
• Applications 
– 企業での活用事例などの発表 
• Developer 
– 開発者向けの発表 
• Data Science 
– Spark を利用した分析事例の発表 
– Spark におけるデータ分析関連コンポーネントの発表 
18
Spark Summit の報告の前に 
ビッグデータテクノロジーのトレンド 
19
Key Technologies in Big Data 
• In-Memory 
• Distributed 
• Linear Scaling 
• Massively Parallel Processing 
20 
Scalable で,Hadoop MapReduce より高速に 
ビッグデータを処理できる分散システムが必要
ビッグデータ分析に求められているシーン 
• Batch 
– Hadoop MapReduce により実現されてきたが,実行時間 
に課題がある 
• Streaming 
– よりリアルタイムな分析 
• Interactive 
– 対話的に分析 
– Apache Pig などもあったが,処理時間がかかるので 
Interactive とは言いがたい 
21
Spark Summit 2014 ハイライト 
• Spark は,Apache プロジェクトの中でも最も活発なプ 
ロジェクトのひとつ 
• Spark は,さまざまな分析シーンの共通エンジンにな 
りえる 
– 単なる処理が早くなるバッチフレームワークではない! 
• Databricks Cloudは,企業組織におけるデータ分析 
が意識されたcool なプロダクト 
• MLlib, GraphX などの分析に求められる処理を共通 
ライブラリとして提供 
22
Apache Spark は 
最も活発なプロジェクトのひとつ 
• Spark’s Role in the Big Data 
Ecosystem 
– Matei Zaharia (CTO, Databricks) 
• 過去6ヶ月のコミット数をほかのプ 
ロジェクトと比べてみると圧倒的に 
多い 
23
Spark が目指すもの 
• ビッグデータ分析のための統合プラットフォーム 
– 開発者にとって:1つのシステムを学べばよい 
– ユーザにとって:アプリをどこでも利用できる 
– ディストリビュータにとって:アプリ開発のしやすさ 
• ビッグデータ分析の標準ライブラリの提供 
24
ビッグデータ分析のための 
統合プラットフォーム 
25
ビッグデータ分析の標準ライブラリになる 
• MLlib: 
– Scalable な機械学習ライブラリ 
• Classification: Logistic Regression, Naïve Bayes 
• Clustering: k-means 
• Recommendation: ALS 
• Regression: Generalized Linear Regression etc 
• Decision Tree: 
• GraphX: 
– グラフ処理のためのライブラリ 
• Page Rank 
• Connected Components, Strongly Connected Components 
• Shortest Paths 
• Triangle Count 
26
Databricks Cloud 
• Apache Spark 向けのmanaged cloud service 
– Beta 版の公開待ち 
– http://databricks.com/cloud 
• 必要なSpark クラスタをすぐに起動することができる 
• ブラウザでNotebooks とDashboards というインタ 
フェースを操作することで分析できる 
• なかなか凄さが伝わらないのでDemo Video 
– http://youtu.be/dJQ5lV5Tldw?t=14m45s 
27 
データサイエンティストやエンジニアをより自由に
“SparkR: Interactive R programs at Scale “ 
Shivaram Venkataraman, ZonghengYang (UC Berkeley) 
• Spark とR のそれぞれの良さの統合を目指す 
– R でSpark の処理を単純に呼び出せる 
– R の3rd package をSpark 上で分散処理 
• 将来的には,Spark のRDD をR のdata.frame 型として扱える 
ようにしたい 
• R ユーザとしては,スケーラブルなビッグデータ処理ができる 
ようになるのはありがたい 
28
Tachyon: Further Improve Spark’s Performance 
Haoyuan LI (UC Berkeley) 
• a distributed in-memory storage system 
• 異なるフレームワーク間でのデータのやり取りをメモリベースで行える 
• 処理層とキャッシュ層を分けることで,処理がクラッシュしたときに処理を 
復元しやすくなる 
29
Hive on Spark 
• Apache Hive の処理エンジンをHadoop MapReduce, Tez だけ 
でなくApache Spark への対応を目指す 
– Spark での実行も可能になることで,より短時間で結果が得られるよ 
うになることが期待される 
• Hadoop エコシステムの中では,企業におけるデータ分析の 
大部分はHive で実現されているので有用 
– SQL はインタフェースとしては優れているため 
• [HIVE-7292] Hive on Spark 
– https://issues.apache.org/jira/browse/HIVE-7292 
30
Spark Summit 2014 雑感 
• Spark はデータ分析の統合プラットフォームになりえる 
– 「より高速に処理できるバッチフレームワーク」だけではない! 
– Streaming 処理,対話的処理にも同じコンポーネントで処理すること 
ができるのは魅力 
• 最近のイベントは動画配信をしてくれるので,talks を聞くのも 
いいが人との交流を多く持たないと意味が無いと感じた 
– Databricks 社のエンジニア 
– Adobe のデータ分析部門のシニアマネージャ 
– メキシコやイスラエルのスタートアップのCTO 
– などと話せて有意義だった 
31
Mini Q&A 
32
Contribute to Apache Spark 
33
How to be a contributor 
• Read papers about distributed system, machine 
learning and data structure 
• Read the documentation about “Contributing to 
Spark” 
– https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark 
• Create issues on Apache Spark JIRA 
– https://issues.apache.org/jira/browse/SPARK/ 
• Communicate with other developers on Apache 
Spark Developers List 
– http://apache-spark-developers-list.1001551.n3.nabble.com/ 
• Send your pull requests to Spark Github 
– https://github.com/apache/spark 
34
MLlib にコミット(しようとしている) 
• MLlib:Spark 上で実行できる機械学習の共通ライブラリ 
• MLlib のアルゴリズムの要件 
– Be widely known 
– Be used and accepted (academic citations and concrete use cases can 
help justify this) 
– Be highly scalable 
– Be well documented 
– Have APIs consistent with other algorithms in MLlib that accomplish 
the same thing 
– Come with a reasonable expectation of developer support. 
35
直近で取り組んでいる課題 
• [SPARK-2335] k-Nearest Neighbor classification and 
regression for MLLib 
– https://issues.apache.org/jira/browse/SPARK-2335 
• [SPARK-2966] Add an approximation algorithm for 
hierarchical clustering to MLlib 
– https://issues.apache.org/jira/browse/SPARK-2966 
• [SPARK-3012] Standardized Distance Functions between two 
Vectors for MLlib 
– https://issues.apache.org/jira/browse/SPARK-3012 
• 公式ドキュメントの日本語翻訳とか? 
– Apache Spark Developers List - Can I translate the 
documentations of Spark in Japanese? 
• http://apache-spark-developers-list.1001551.n3.nabble.com/Can-I-translate-the- 
documentations-of-Spark-in-Japanese-td7538.html 
36
Thank you for your time 
37
Q&A 
38

More Related Content

What's hot

Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みcyberagent
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現Ryoma Nagata
 
The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)Shoji Shirotori
 
Data Scientist Workbench 入門
Data Scientist Workbench 入門Data Scientist Workbench 入門
Data Scientist Workbench 入門soh kaijima
 
20180627 databricks ver1.1
20180627 databricks ver1.120180627 databricks ver1.1
20180627 databricks ver1.1Hirono Jumpei
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Takahiro Inoue
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングTakahiro Inoue
 
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729s. kaijima
 
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートakeDaiyu Hatakeyama
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門Satoru Ishikawa
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポートRyoma Nagata
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返りSatoshi Noto
 
Re:dash Use Cases at iPROS
Re:dash Use Cases at iPROSRe:dash Use Cases at iPROS
Re:dash Use Cases at iPROSJumpei Yokota
 
Apache Sparkやってみたところ
Apache SparkやってみたところApache Sparkやってみたところ
Apache SparkやってみたところTatsunori Nishikori
 
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料s. kaijima
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料Atsushi Tsuchiya
 
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updatesre:Growth2019 Analytics Updates
re:Growth2019 Analytics UpdatesSatoru Ishikawa
 

What's hot (20)

Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
 
The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)
 
Data Scientist Workbench 入門
Data Scientist Workbench 入門Data Scientist Workbench 入門
Data Scientist Workbench 入門
 
20180627 databricks ver1.1
20180627 databricks ver1.120180627 databricks ver1.1
20180627 databricks ver1.1
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
 
Delta lakesummary
Delta lakesummaryDelta lakesummary
Delta lakesummary
 
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on HadoopThe truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
 
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
 
Re:dash Use Cases at iPROS
Re:dash Use Cases at iPROSRe:dash Use Cases at iPROS
Re:dash Use Cases at iPROS
 
Apache Sparkやってみたところ
Apache SparkやってみたところApache Sparkやってみたところ
Apache Sparkやってみたところ
 
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
 
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updatesre:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
 

Viewers also liked

What is my house like?
What is my house like?What is my house like?
What is my house like?yuligalindo07
 
Algo más que objetos.
Algo más que objetos.Algo más que objetos.
Algo más que objetos.Encarna Lago
 
Css cascading style sheet
Css cascading style sheetCss cascading style sheet
Css cascading style sheetMorvana Bonin
 
AppCívico - Tecnologias cívicas estão impactando políticas públicas
AppCívico - Tecnologias cívicas estão impactando políticas públicasAppCívico - Tecnologias cívicas estão impactando políticas públicas
AppCívico - Tecnologias cívicas estão impactando políticas públicasThiago Rondon
 
Ser o no ser Líder Político en Redes Sociales
Ser o no ser Líder Político en Redes SocialesSer o no ser Líder Político en Redes Sociales
Ser o no ser Líder Político en Redes SocialesTecnocible
 
Informe estadístico del comercio exterior de Alemania 2011 - 2015
Informe estadístico del comercio exterior de Alemania 2011 - 2015Informe estadístico del comercio exterior de Alemania 2011 - 2015
Informe estadístico del comercio exterior de Alemania 2011 - 2015Diario del Exportador
 
POWERPLUS E-LEARNING PRESENTATION
POWERPLUS E-LEARNING PRESENTATIONPOWERPLUS E-LEARNING PRESENTATION
POWERPLUS E-LEARNING PRESENTATIONgelomaics7281125
 
Canales Cortos de Comercialización de Alimentos / Short Food Supply Chain
Canales Cortos de Comercialización de Alimentos / Short Food Supply ChainCanales Cortos de Comercialización de Alimentos / Short Food Supply Chain
Canales Cortos de Comercialización de Alimentos / Short Food Supply ChainIñaki Benito Otazu
 
Lewis, c.s. las cronicas de narnia 1 el sobrino del mago
Lewis, c.s.   las cronicas de narnia 1 el sobrino del magoLewis, c.s.   las cronicas de narnia 1 el sobrino del mago
Lewis, c.s. las cronicas de narnia 1 el sobrino del magopaulaXD
 
Apache Sparkについて
Apache SparkについてApache Sparkについて
Apache SparkについてBrainPad Inc.
 
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜x1 ichi
 
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!leverages_event
 
Shapeless- Generic programming for Scala
Shapeless- Generic programming for ScalaShapeless- Generic programming for Scala
Shapeless- Generic programming for ScalaKnoldus Inc.
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~sugiyama koki
 
Docker and Running multiple versions of PHP @ CareerZoo Dublin
Docker and Running multiple versions of PHP @ CareerZoo DublinDocker and Running multiple versions of PHP @ CareerZoo Dublin
Docker and Running multiple versions of PHP @ CareerZoo Dublinrjsmelo
 
Film Review Analysis - Moonrise Kingdom
Film Review Analysis - Moonrise KingdomFilm Review Analysis - Moonrise Kingdom
Film Review Analysis - Moonrise Kingdommillymoo223
 

Viewers also liked (20)

Autismo e educação 1
Autismo e educação 1Autismo e educação 1
Autismo e educação 1
 
Os números
Os números Os números
Os números
 
What is my house like?
What is my house like?What is my house like?
What is my house like?
 
Algo más que objetos.
Algo más que objetos.Algo más que objetos.
Algo más que objetos.
 
Css cascading style sheet
Css cascading style sheetCss cascading style sheet
Css cascading style sheet
 
AppCívico - Tecnologias cívicas estão impactando políticas públicas
AppCívico - Tecnologias cívicas estão impactando políticas públicasAppCívico - Tecnologias cívicas estão impactando políticas públicas
AppCívico - Tecnologias cívicas estão impactando políticas públicas
 
Ser o no ser Líder Político en Redes Sociales
Ser o no ser Líder Político en Redes SocialesSer o no ser Líder Político en Redes Sociales
Ser o no ser Líder Político en Redes Sociales
 
Infraestrutura como código
Infraestrutura como códigoInfraestrutura como código
Infraestrutura como código
 
Informe estadístico del comercio exterior de Alemania 2011 - 2015
Informe estadístico del comercio exterior de Alemania 2011 - 2015Informe estadístico del comercio exterior de Alemania 2011 - 2015
Informe estadístico del comercio exterior de Alemania 2011 - 2015
 
POWERPLUS E-LEARNING PRESENTATION
POWERPLUS E-LEARNING PRESENTATIONPOWERPLUS E-LEARNING PRESENTATION
POWERPLUS E-LEARNING PRESENTATION
 
Canales Cortos de Comercialización de Alimentos / Short Food Supply Chain
Canales Cortos de Comercialización de Alimentos / Short Food Supply ChainCanales Cortos de Comercialización de Alimentos / Short Food Supply Chain
Canales Cortos de Comercialización de Alimentos / Short Food Supply Chain
 
Bài 1
Bài 1Bài 1
Bài 1
 
Lewis, c.s. las cronicas de narnia 1 el sobrino del mago
Lewis, c.s.   las cronicas de narnia 1 el sobrino del magoLewis, c.s.   las cronicas de narnia 1 el sobrino del mago
Lewis, c.s. las cronicas de narnia 1 el sobrino del mago
 
Apache Sparkについて
Apache SparkについてApache Sparkについて
Apache Sparkについて
 
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
 
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
 
Shapeless- Generic programming for Scala
Shapeless- Generic programming for ScalaShapeless- Generic programming for Scala
Shapeless- Generic programming for Scala
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
 
Docker and Running multiple versions of PHP @ CareerZoo Dublin
Docker and Running multiple versions of PHP @ CareerZoo DublinDocker and Running multiple versions of PHP @ CareerZoo Dublin
Docker and Running multiple versions of PHP @ CareerZoo Dublin
 
Film Review Analysis - Moonrise Kingdom
Film Review Analysis - Moonrise KingdomFilm Review Analysis - Moonrise Kingdom
Film Review Analysis - Moonrise Kingdom
 

Similar to Spark Summit 2014 の報告と最近の取り組みについて

Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningTakuya UESHIN
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-LINE Corp.
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Taro L. Saito
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングShin Matsumoto
 
Accelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJPAccelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJPEiji Shinohara
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保するDNA Data Bank of Japan center
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、DatabricksでもやってみましょうかRyuichi Tokugami
 
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
2019.03.19 Deep Dive into Spark SQL with Advanced Performance TuningTakuya UESHIN
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようHideo Takagi
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係datastaxjp
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストMasao Takaku
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabaseRyoma Nagata
 
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Makoto Yui
 
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドMasaharu Munetomo
 

Similar to Spark Summit 2014 の報告と最近の取り組みについて (20)

Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニング
 
Accelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJPAccelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJP
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
 
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
 
JJUG CCC 2014 ATL
JJUG CCC 2014 ATLJJUG CCC 2014 ATL
JJUG CCC 2014 ATL
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabase
 
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014
 
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウド
 

More from Recruit Technologies

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場Recruit Technologies
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びRecruit Technologies
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Recruit Technologies
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話Recruit Technologies
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所Recruit Technologies
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Recruit Technologies
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例Recruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後Recruit Technologies
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するRecruit Technologies
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントRecruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~Recruit Technologies
 

More from Recruit Technologies (20)

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 

Recently uploaded

MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。iPride Co., Ltd.
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizesatsushi061452
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptxyassun7010
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptxssuserbefd24
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルCRI Japan, Inc.
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...atsushi061452
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)NTT DATA Technology & Innovation
 

Recently uploaded (14)

MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 

Spark Summit 2014 の報告と最近の取り組みについて

  • 1. The f{ea,u}ture of Apache Spark 2014-08 ATL 研究会 Yu Ishikawa 1
  • 2. アジェンダ • What is Apache Spark? • Spark Summit 2014 報告 • Contribute to Apache Spark • Q&A 基礎知識 現状と将来性 取り組み 2
  • 3. What is Apache Spark? 3
  • 4. What is Apache Spark ? Apache Spark is a Hadoop-compatible computing system that makes big data analysis drastically faster, through in-memory computation, and simpler to write, through easy APIs in Java, Scala and Python. 4
  • 5. The history of Apache Spark • UC Berkeley AMPLab のビッグデータ分析をターゲッ トとしたBDAS というプロジェクトの中から生まれた – https://amplab.cs.berkeley.edu/ • Matei Zaharia さんがUC Berkeley の博士課程の研 究でSpark を生み出す – http://people.csail.mit.edu/matei/ • Databricks 社が設立されてSpark が展開 – Matei Zaharia さんはDatabricks 社のCTO – http://databricks.com/ 5
  • 6. BDAS: Berkeley Data Analytics Stack • Is an open source software stack that integrates software components being built by the AMPLab to make sense of Big Data. 6
  • 8. Hadoop MapReduce の欠点のひとつ • ディスクの入出力がボトルネックになるので,データ を再利用するような繰り返し処理などに向かない 8
  • 9. What’s Apache Spark again ? • in-memory で分散処理をするためのフレームワーク • Hadoop MapReduce には向いていないアルゴリズムを実 装できる • Iterative Algorithm • k-means のような機械学習アルゴリズムやネットワーク分析アルゴリ ズム • 対話的な実行 – Scala を拡張したコンソールでSpark の対話的な実行もできる 9
  • 10. 単純にIn-memory だから Spark は優れているのか? 10
  • 11. RDD:Resilient Distributed Datasets • DAG 型実行計画により,in-memory 分散処理の フォールトトレラントを実現 – Resilient: 回復力のある,すぐに立ち直れる – DAG: Directed Acyclic Graph,無閉路有向グラフ 11 Cited by Matei Zaharia et al. “Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing”
  • 12. DAG 型実行計画の遅延評価 12 // load data from Amazon S3 val data = sc.textFile(“s3n://bucket/data/access-log.txt”) // transformations val errors = data.filter(line => line.contains(“error”)) val splitedData = errors.map(line => line.split(“t”)) val elements = splitedData.map(x => x(3)) // action elements.count この段階では処理は 実行されていない この段階になって初 めて処理が実行 RDD のAPI はTransformations とActions に分類 map() , filter() などのTransformations は遅延評価 count() などのActions が評価されたタイミングで実行計画を立てて処理される
  • 13. Hadoop との処理時間の比較 • 評価実験:100 GB のデータセットに対して10 回の iteration を実行 13 Cited by Matei Zaharia et al. “Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing”
  • 14. 「What is Apache Spark ?」まとめ • Spark はin-memory で分散処理をするためのフ レームワーク • Hadoop MapReduce に向かない繰り返し処理などを 処理できる • RDD という分散メモリの抽象化の技術が根幹となっ ている – RDD を処理する実行計画をある程度まとめてから最適化 されている 14
  • 15. Spark Summit 2014 報告 15
  • 16. Spark Summit 2014 • 日にち:2014-06-30 - 2014-07-02 – Day 1, 2: Talks – Day 3: Training • 会場:The Westin St. Francis in San Francisco • 参加者:1000 人以上 – 日本人の参加者もちらほら見かけた – Training も基礎コースとアドバンテージコースの2つ • それぞれに100 人以上の参加者 16
  • 17. 17
  • 18. セッションの分類 • Applications – 企業での活用事例などの発表 • Developer – 開発者向けの発表 • Data Science – Spark を利用した分析事例の発表 – Spark におけるデータ分析関連コンポーネントの発表 18
  • 19. Spark Summit の報告の前に ビッグデータテクノロジーのトレンド 19
  • 20. Key Technologies in Big Data • In-Memory • Distributed • Linear Scaling • Massively Parallel Processing 20 Scalable で,Hadoop MapReduce より高速に ビッグデータを処理できる分散システムが必要
  • 21. ビッグデータ分析に求められているシーン • Batch – Hadoop MapReduce により実現されてきたが,実行時間 に課題がある • Streaming – よりリアルタイムな分析 • Interactive – 対話的に分析 – Apache Pig などもあったが,処理時間がかかるので Interactive とは言いがたい 21
  • 22. Spark Summit 2014 ハイライト • Spark は,Apache プロジェクトの中でも最も活発なプ ロジェクトのひとつ • Spark は,さまざまな分析シーンの共通エンジンにな りえる – 単なる処理が早くなるバッチフレームワークではない! • Databricks Cloudは,企業組織におけるデータ分析 が意識されたcool なプロダクト • MLlib, GraphX などの分析に求められる処理を共通 ライブラリとして提供 22
  • 23. Apache Spark は 最も活発なプロジェクトのひとつ • Spark’s Role in the Big Data Ecosystem – Matei Zaharia (CTO, Databricks) • 過去6ヶ月のコミット数をほかのプ ロジェクトと比べてみると圧倒的に 多い 23
  • 24. Spark が目指すもの • ビッグデータ分析のための統合プラットフォーム – 開発者にとって:1つのシステムを学べばよい – ユーザにとって:アプリをどこでも利用できる – ディストリビュータにとって:アプリ開発のしやすさ • ビッグデータ分析の標準ライブラリの提供 24
  • 26. ビッグデータ分析の標準ライブラリになる • MLlib: – Scalable な機械学習ライブラリ • Classification: Logistic Regression, Naïve Bayes • Clustering: k-means • Recommendation: ALS • Regression: Generalized Linear Regression etc • Decision Tree: • GraphX: – グラフ処理のためのライブラリ • Page Rank • Connected Components, Strongly Connected Components • Shortest Paths • Triangle Count 26
  • 27. Databricks Cloud • Apache Spark 向けのmanaged cloud service – Beta 版の公開待ち – http://databricks.com/cloud • 必要なSpark クラスタをすぐに起動することができる • ブラウザでNotebooks とDashboards というインタ フェースを操作することで分析できる • なかなか凄さが伝わらないのでDemo Video – http://youtu.be/dJQ5lV5Tldw?t=14m45s 27 データサイエンティストやエンジニアをより自由に
  • 28. “SparkR: Interactive R programs at Scale “ Shivaram Venkataraman, ZonghengYang (UC Berkeley) • Spark とR のそれぞれの良さの統合を目指す – R でSpark の処理を単純に呼び出せる – R の3rd package をSpark 上で分散処理 • 将来的には,Spark のRDD をR のdata.frame 型として扱える ようにしたい • R ユーザとしては,スケーラブルなビッグデータ処理ができる ようになるのはありがたい 28
  • 29. Tachyon: Further Improve Spark’s Performance Haoyuan LI (UC Berkeley) • a distributed in-memory storage system • 異なるフレームワーク間でのデータのやり取りをメモリベースで行える • 処理層とキャッシュ層を分けることで,処理がクラッシュしたときに処理を 復元しやすくなる 29
  • 30. Hive on Spark • Apache Hive の処理エンジンをHadoop MapReduce, Tez だけ でなくApache Spark への対応を目指す – Spark での実行も可能になることで,より短時間で結果が得られるよ うになることが期待される • Hadoop エコシステムの中では,企業におけるデータ分析の 大部分はHive で実現されているので有用 – SQL はインタフェースとしては優れているため • [HIVE-7292] Hive on Spark – https://issues.apache.org/jira/browse/HIVE-7292 30
  • 31. Spark Summit 2014 雑感 • Spark はデータ分析の統合プラットフォームになりえる – 「より高速に処理できるバッチフレームワーク」だけではない! – Streaming 処理,対話的処理にも同じコンポーネントで処理すること ができるのは魅力 • 最近のイベントは動画配信をしてくれるので,talks を聞くのも いいが人との交流を多く持たないと意味が無いと感じた – Databricks 社のエンジニア – Adobe のデータ分析部門のシニアマネージャ – メキシコやイスラエルのスタートアップのCTO – などと話せて有意義だった 31
  • 34. How to be a contributor • Read papers about distributed system, machine learning and data structure • Read the documentation about “Contributing to Spark” – https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark • Create issues on Apache Spark JIRA – https://issues.apache.org/jira/browse/SPARK/ • Communicate with other developers on Apache Spark Developers List – http://apache-spark-developers-list.1001551.n3.nabble.com/ • Send your pull requests to Spark Github – https://github.com/apache/spark 34
  • 35. MLlib にコミット(しようとしている) • MLlib:Spark 上で実行できる機械学習の共通ライブラリ • MLlib のアルゴリズムの要件 – Be widely known – Be used and accepted (academic citations and concrete use cases can help justify this) – Be highly scalable – Be well documented – Have APIs consistent with other algorithms in MLlib that accomplish the same thing – Come with a reasonable expectation of developer support. 35
  • 36. 直近で取り組んでいる課題 • [SPARK-2335] k-Nearest Neighbor classification and regression for MLLib – https://issues.apache.org/jira/browse/SPARK-2335 • [SPARK-2966] Add an approximation algorithm for hierarchical clustering to MLlib – https://issues.apache.org/jira/browse/SPARK-2966 • [SPARK-3012] Standardized Distance Functions between two Vectors for MLlib – https://issues.apache.org/jira/browse/SPARK-3012 • 公式ドキュメントの日本語翻訳とか? – Apache Spark Developers List - Can I translate the documentations of Spark in Japanese? • http://apache-spark-developers-list.1001551.n3.nabble.com/Can-I-translate-the- documentations-of-Spark-in-Japanese-td7538.html 36
  • 37. Thank you for your time 37