Submit Search
Upload
Spark MLlib code reading ~optimization~
•
1 like
•
835 views
Kai Sasaki
Follow
Reading Spark MLlib optimization code.
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 30
Download now
Download to read offline
Recommended
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Katsushi Yamashita
Java使いにとっての関数
Java使いにとっての関数
amkt922
Aws ml with api
Aws ml with api
Toshihiko Miura
Spark MLlibでリコメンドエンジンを作った話
Spark MLlibでリコメンドエンジンを作った話
Koki Shibata
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
Lambda in java_20160121
Lambda in java_20160121
Teruo Kawasaki
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Masahiro Satake
Reading drill
Reading drill
Kai Sasaki
Recommended
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Katsushi Yamashita
Java使いにとっての関数
Java使いにとっての関数
amkt922
Aws ml with api
Aws ml with api
Toshihiko Miura
Spark MLlibでリコメンドエンジンを作った話
Spark MLlibでリコメンドエンジンを作った話
Koki Shibata
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
Lambda in java_20160121
Lambda in java_20160121
Teruo Kawasaki
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Masahiro Satake
Reading drill
Reading drill
Kai Sasaki
Objective-Cのいろいろな反復処理
Objective-Cのいろいろな反復処理
Kosuke Ogawa
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Sotaro Kimura
Rdsを学ぶ
Rdsを学ぶ
yuya-nakamura
Scalaz-StreamによるFunctional Reactive Programming
Scalaz-StreamによるFunctional Reactive Programming
Tomoharu ASAMI
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
第一回Web技術勉強会 efkスタック編
第一回Web技術勉強会 efkスタック編
tzm_freedom
Sparkでレコメンドエンジンを作ってみた
Sparkでレコメンドエンジンを作ってみた
fujita_s
Kafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめ
Keigo Suda
ML Pipelineで実践機械学習
ML Pipelineで実践機械学習
Kazuki Taniguchi
ScalaでBacklogの通知bot作ったで
ScalaでBacklogの通知bot作ったで
Asami Abe
HyperLogLogを用いた、異なり数に基づく 省リソースなk-meansの k決定アルゴリズムの提案
HyperLogLogを用いた、異なり数に基づく 省リソースなk-meansの k決定アルゴリズムの提案
Kai Sasaki
Embuk internals
Embuk internals
Sadayuki Furuhashi
Treasure Data Overview
Treasure Data Overview
treasuredata
図でわかるHDFS Erasure Coding
図でわかるHDFS Erasure Coding
Kai Sasaki
Prestogres, ODBC & JDBC connectivity for Presto
Prestogres, ODBC & JDBC connectivity for Presto
Sadayuki Furuhashi
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
Embulk makes Japan visible
Embulk makes Japan visible
Kai Sasaki
Managing multi tenant resource toward Hive 2.0
Managing multi tenant resource toward Hive 2.0
Kai Sasaki
Fighting Against Chaotically Separated Values with Embulk
Fighting Against Chaotically Separated Values with Embulk
Sadayuki Furuhashi
Embulk - 進化するバルクデータローダ
Embulk - 進化するバルクデータローダ
Sadayuki Furuhashi
Understanding Presto - Presto meetup @ Tokyo #1
Understanding Presto - Presto meetup @ Tokyo #1
Sadayuki Furuhashi
Plugin-based software design with Ruby and RubyGems
Plugin-based software design with Ruby and RubyGems
Sadayuki Furuhashi
More Related Content
What's hot
Objective-Cのいろいろな反復処理
Objective-Cのいろいろな反復処理
Kosuke Ogawa
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Sotaro Kimura
Rdsを学ぶ
Rdsを学ぶ
yuya-nakamura
Scalaz-StreamによるFunctional Reactive Programming
Scalaz-StreamによるFunctional Reactive Programming
Tomoharu ASAMI
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
第一回Web技術勉強会 efkスタック編
第一回Web技術勉強会 efkスタック編
tzm_freedom
Sparkでレコメンドエンジンを作ってみた
Sparkでレコメンドエンジンを作ってみた
fujita_s
Kafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめ
Keigo Suda
ML Pipelineで実践機械学習
ML Pipelineで実践機械学習
Kazuki Taniguchi
ScalaでBacklogの通知bot作ったで
ScalaでBacklogの通知bot作ったで
Asami Abe
What's hot
(10)
Objective-Cのいろいろな反復処理
Objective-Cのいろいろな反復処理
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Rdsを学ぶ
Rdsを学ぶ
Scalaz-StreamによるFunctional Reactive Programming
Scalaz-StreamによるFunctional Reactive Programming
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
第一回Web技術勉強会 efkスタック編
第一回Web技術勉強会 efkスタック編
Sparkでレコメンドエンジンを作ってみた
Sparkでレコメンドエンジンを作ってみた
Kafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめ
ML Pipelineで実践機械学習
ML Pipelineで実践機械学習
ScalaでBacklogの通知bot作ったで
ScalaでBacklogの通知bot作ったで
Viewers also liked
HyperLogLogを用いた、異なり数に基づく 省リソースなk-meansの k決定アルゴリズムの提案
HyperLogLogを用いた、異なり数に基づく 省リソースなk-meansの k決定アルゴリズムの提案
Kai Sasaki
Embuk internals
Embuk internals
Sadayuki Furuhashi
Treasure Data Overview
Treasure Data Overview
treasuredata
図でわかるHDFS Erasure Coding
図でわかるHDFS Erasure Coding
Kai Sasaki
Prestogres, ODBC & JDBC connectivity for Presto
Prestogres, ODBC & JDBC connectivity for Presto
Sadayuki Furuhashi
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
Embulk makes Japan visible
Embulk makes Japan visible
Kai Sasaki
Managing multi tenant resource toward Hive 2.0
Managing multi tenant resource toward Hive 2.0
Kai Sasaki
Fighting Against Chaotically Separated Values with Embulk
Fighting Against Chaotically Separated Values with Embulk
Sadayuki Furuhashi
Embulk - 進化するバルクデータローダ
Embulk - 進化するバルクデータローダ
Sadayuki Furuhashi
Understanding Presto - Presto meetup @ Tokyo #1
Understanding Presto - Presto meetup @ Tokyo #1
Sadayuki Furuhashi
Plugin-based software design with Ruby and RubyGems
Plugin-based software design with Ruby and RubyGems
Sadayuki Furuhashi
How to ensure Presto scalability in multi use case
How to ensure Presto scalability in multi use case
Kai Sasaki
Fluentd at Bay Area Kubernetes Meetup
Fluentd at Bay Area Kubernetes Meetup
Sadayuki Furuhashi
Logging for Production Systems in The Container Era
Logging for Production Systems in The Container Era
Sadayuki Furuhashi
DigdagはなぜYAMLなのか?
DigdagはなぜYAMLなのか?
Sadayuki Furuhashi
Maintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoop
Kai Sasaki
What's Amazon Athena? - re:Growth 2016 Osaka
What's Amazon Athena? - re:Growth 2016 Osaka
Ganota Ichida
分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11
分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11
Sadayuki Furuhashi
Embulk, an open-source plugin-based parallel bulk data loader
Embulk, an open-source plugin-based parallel bulk data loader
Sadayuki Furuhashi
Viewers also liked
(20)
HyperLogLogを用いた、異なり数に基づく 省リソースなk-meansの k決定アルゴリズムの提案
HyperLogLogを用いた、異なり数に基づく 省リソースなk-meansの k決定アルゴリズムの提案
Embuk internals
Embuk internals
Treasure Data Overview
Treasure Data Overview
図でわかるHDFS Erasure Coding
図でわかるHDFS Erasure Coding
Prestogres, ODBC & JDBC connectivity for Presto
Prestogres, ODBC & JDBC connectivity for Presto
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
Embulk makes Japan visible
Embulk makes Japan visible
Managing multi tenant resource toward Hive 2.0
Managing multi tenant resource toward Hive 2.0
Fighting Against Chaotically Separated Values with Embulk
Fighting Against Chaotically Separated Values with Embulk
Embulk - 進化するバルクデータローダ
Embulk - 進化するバルクデータローダ
Understanding Presto - Presto meetup @ Tokyo #1
Understanding Presto - Presto meetup @ Tokyo #1
Plugin-based software design with Ruby and RubyGems
Plugin-based software design with Ruby and RubyGems
How to ensure Presto scalability in multi use case
How to ensure Presto scalability in multi use case
Fluentd at Bay Area Kubernetes Meetup
Fluentd at Bay Area Kubernetes Meetup
Logging for Production Systems in The Container Era
Logging for Production Systems in The Container Era
DigdagはなぜYAMLなのか?
DigdagはなぜYAMLなのか?
Maintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoop
What's Amazon Athena? - re:Growth 2016 Osaka
What's Amazon Athena? - re:Growth 2016 Osaka
分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11
分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11
Embulk, an open-source plugin-based parallel bulk data loader
Embulk, an open-source plugin-based parallel bulk data loader
Similar to Spark MLlib code reading ~optimization~
Object-Funcational Analysis and design
Object-Funcational Analysis and design
Tomoharu ASAMI
Scala再入門 @2014/02/08 Scala関西ビギナーズ第3回
Scala再入門 @2014/02/08 Scala関西ビギナーズ第3回
Asami Abe
Apache Sparkやってみたところ
Apache Sparkやってみたところ
Tatsunori Nishikori
Scalaノススメ
Scalaノススメ
Yasuyuki Maeda
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Tomoharu ASAMI
Scala勉強会_2014_11_18
Scala勉強会_2014_11_18
Shuya Tsukamoto
Scala Daysに行ってみて
Scala Daysに行ってみて
Kota Mizushima
頑張りすぎないScala
頑張りすぎないScala
takezoe
Scalaプログラミング・マニアックス
Scalaプログラミング・マニアックス
Tomoharu ASAMI
オブジェクト指向開発におけるObject-Functional Programming
オブジェクト指向開発におけるObject-Functional Programming
Tomoharu ASAMI
ScalaでASICやFPGA用の回路を設計するChisel
ScalaでASICやFPGA用の回路を設計するChisel
Kei Nakazawa
Flang kkd1
Flang kkd1
florets1
Scalaで萌える関数型プログラミング[エッセンシャル版]
Scalaで萌える関数型プログラミング[エッセンシャル版]
Ra Zon
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
Scala.js触ってみた
Scala.js触ってみた
Asami Abe
Object-Functional Analysis and Design and Programming温泉
Object-Functional Analysis and Design and Programming温泉
Tomoharu ASAMI
Swiftでの関数型プログラミングについて考えていること
Swiftでの関数型プログラミングについて考えていること
Shingo Sato
とりあえず使えるSBT
とりあえず使えるSBT
Kiyotaka Kunihira
MySQL最新情報と、データベースのお勉強のススメ-第68回PHP勉強会
MySQL最新情報と、データベースのお勉強のススメ-第68回PHP勉強会
sakaik
SQLアンチパターン メンター用資料
SQLアンチパターン メンター用資料
Hironori Miura
Similar to Spark MLlib code reading ~optimization~
(20)
Object-Funcational Analysis and design
Object-Funcational Analysis and design
Scala再入門 @2014/02/08 Scala関西ビギナーズ第3回
Scala再入門 @2014/02/08 Scala関西ビギナーズ第3回
Apache Sparkやってみたところ
Apache Sparkやってみたところ
Scalaノススメ
Scalaノススメ
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Scala勉強会_2014_11_18
Scala勉強会_2014_11_18
Scala Daysに行ってみて
Scala Daysに行ってみて
頑張りすぎないScala
頑張りすぎないScala
Scalaプログラミング・マニアックス
Scalaプログラミング・マニアックス
オブジェクト指向開発におけるObject-Functional Programming
オブジェクト指向開発におけるObject-Functional Programming
ScalaでASICやFPGA用の回路を設計するChisel
ScalaでASICやFPGA用の回路を設計するChisel
Flang kkd1
Flang kkd1
Scalaで萌える関数型プログラミング[エッセンシャル版]
Scalaで萌える関数型プログラミング[エッセンシャル版]
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Scala.js触ってみた
Scala.js触ってみた
Object-Functional Analysis and Design and Programming温泉
Object-Functional Analysis and Design and Programming温泉
Swiftでの関数型プログラミングについて考えていること
Swiftでの関数型プログラミングについて考えていること
とりあえず使えるSBT
とりあえず使えるSBT
MySQL最新情報と、データベースのお勉強のススメ-第68回PHP勉強会
MySQL最新情報と、データベースのお勉強のススメ-第68回PHP勉強会
SQLアンチパターン メンター用資料
SQLアンチパターン メンター用資料
More from Kai Sasaki
Graviton 2で実現する コスト効率のよいCDP基盤
Graviton 2で実現する コスト効率のよいCDP基盤
Kai Sasaki
Infrastructure for auto scaling distributed system
Infrastructure for auto scaling distributed system
Kai Sasaki
Continuous Optimization for Distributed BigData Analysis
Continuous Optimization for Distributed BigData Analysis
Kai Sasaki
Recent Changes and Challenges for Future Presto
Recent Changes and Challenges for Future Presto
Kai Sasaki
Real World Storage in Treasure Data
Real World Storage in Treasure Data
Kai Sasaki
20180522 infra autoscaling_system
20180522 infra autoscaling_system
Kai Sasaki
User Defined Partitioning on PlazmaDB
User Defined Partitioning on PlazmaDB
Kai Sasaki
Deep dive into deeplearn.js
Deep dive into deeplearn.js
Kai Sasaki
Optimizing Presto Connector on Cloud Storage
Optimizing Presto Connector on Cloud Storage
Kai Sasaki
Presto updates to 0.178
Presto updates to 0.178
Kai Sasaki
How I tried MADE
How I tried MADE
Kai Sasaki
Reading kernel org
Reading kernel org
Kai Sasaki
Kernel ext4
Kernel ext4
Kai Sasaki
Kernel bootstrap
Kernel bootstrap
Kai Sasaki
Kernel resource
Kernel resource
Kai Sasaki
Kernel overview
Kernel overview
Kai Sasaki
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
Pattern match with case class
Pattern match with case class
Kai Sasaki
Drawing word2vec
Drawing word2vec
Kai Sasaki
Deeplearning with node
Deeplearning with node
Kai Sasaki
More from Kai Sasaki
(20)
Graviton 2で実現する コスト効率のよいCDP基盤
Graviton 2で実現する コスト効率のよいCDP基盤
Infrastructure for auto scaling distributed system
Infrastructure for auto scaling distributed system
Continuous Optimization for Distributed BigData Analysis
Continuous Optimization for Distributed BigData Analysis
Recent Changes and Challenges for Future Presto
Recent Changes and Challenges for Future Presto
Real World Storage in Treasure Data
Real World Storage in Treasure Data
20180522 infra autoscaling_system
20180522 infra autoscaling_system
User Defined Partitioning on PlazmaDB
User Defined Partitioning on PlazmaDB
Deep dive into deeplearn.js
Deep dive into deeplearn.js
Optimizing Presto Connector on Cloud Storage
Optimizing Presto Connector on Cloud Storage
Presto updates to 0.178
Presto updates to 0.178
How I tried MADE
How I tried MADE
Reading kernel org
Reading kernel org
Kernel ext4
Kernel ext4
Kernel bootstrap
Kernel bootstrap
Kernel resource
Kernel resource
Kernel overview
Kernel overview
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Pattern match with case class
Pattern match with case class
Drawing word2vec
Drawing word2vec
Deeplearning with node
Deeplearning with node
Spark MLlib code reading ~optimization~
1.
Spark MLlib Code Reading Kai
Sasaki(@Lewuathe)
2.
Who am I? •
佐々木海 (Kai Sasaki) • Hadoop屋さん • 好きな非線形関数はReLU
3.
What is Spark? •
Scalaで書かれた汎用分散処理エンジン • グラフ処理, 機械学習, SQLエンジンなど のライブラリの付属 • Scala, Java, Python, RのAPIを持つ
4.
MLlib • Sparkに付属されている機械学習ライブラリ • I/FやAPIがより洗練されたMLという フレームワークもあるが実装されている アルゴリズムがMLlibの方が多い
5.
Structure
6.
Structure 今日はこの中の Gradient Descent
7.
Gradient Descent • 勾配法 •
ある目的関数を最小化(最大化)するような 変数の組を見つけるためのアルゴリズム • 学習データとのずれ(目的関数)を最小化するような モデル(変数の組)を見つけるためによく使う
8.
Gradient Descent f(w) w
9.
Gradient Descent f(w) w f(w)を最小化するwが知りたい
10.
Gradient Descent f(w) w 1. 適当に初期値を決める
11.
Gradient Descent f(w) w 2. この点における勾配を求める(微分する)
=
12.
Gradient Descent f(w) w 3. 変数を次式で更新する
13.
Gradient Descent f(w) w 4. これを何回か繰り返す
14.
Gradient Descent f(w) w 4. これを何回か繰り返す
15.
Gradient Descent f(w) w 4. これを何回か繰り返す
16.
Gradient Descent f(w) w 4. これを何回か繰り返す
17.
Gradient Descent f(w) w 4. これを何回か繰り返す ここがf(w)を最小化するw
18.
Gradient Descent • w:
変数の組 • : step size(学習率) • : gradient(勾配) • : 更新式 • loss: 目的関数の値
19.
GradientDescent
20.
GradientDescent#optimize
21.
GradientDescent
22.
GradientDescent 初期値 操作
23.
GradientDescent d d d
d d d d d p p p seqOp seqOp seqOp
24.
GradientDescent d d d
d d d d d p p p seqOp seqOp seqOp
25.
GradientDescent d d d
d d d d d p p p seqOp seqOp seqOp
26.
GradientDescent d d d
d d d d d p p p seqOp seqOp seqOp combOp
27.
GradientDescent d d d
d d d d d p p p seqOp seqOp seqOp combOp combOp
28.
GradientDescent d d d
d d d d d p p p seqOp seqOp seqOp combOp result combOp
29.
GradientDescent
30.
まとめ • Gradient Descentアルゴリズムの話 •
Sparkでの実装 • Gradient, Updater, treeAggregate
Download now