SlideShare a Scribd company logo
1 of 11
Download to read offline
Copyright 2016 FUJITSU LABORATORIES LTD
自動的なビッグデータ機械学習技術
Spark上で複数の学習アルゴリズムの
自動選択が可能に
2016年2月8日
(株)富士通研究所 知識情報処理研究所
主管研究員 上田 晴康
0
Spark Conference Japan 2016 LT
自己紹介
大学を卒業する時は、
第2の人工知能ブームが来た頃
機械学習の研究してました
人工知能の冬の時代は、並列処理
とか組合せ最適化とかしていました
「ビッグデータ」がはやって来たので
Hadoop、Sparkをいじりながら
機械学習をもっともっと便利にする技術を作ってます
Copyright 2016 FUJITSU LABORATORIES LTD1
Sparkといえば機械学習
Copyright 2014 FUJITSU LABORATORIES LTD.
Hadoopだと、
…
HDFS
read
HDFS
write
①
HDFS
read
HDFS
write
②
HDFS
read
HDFS
write
③
Sparkなら
HDFS
write
HDFS
read
① ② ③…
…
HDFS
read
HDFS
write
①
HDFS
read
HDFS
write
②
HDFS
read
HDFS
write
③
HDFS
write
HDFS
read
① ② ③… 時刻
ディスクI/Oが
少ないから速い!
…
通
信
通
信
通
信
…
通
信
通
信
通
信
機械学習など、並列ジョブを繰り返す処理が得意
2
ところで、機械学習って何ですか?
予測をするための方法です
でも占いじゃありません
Copyright 2016 FUJITSU LABORATORIES LTD3
機械学習とは?
過去のデータから隠れた法則性(予測モデル)を見つけだし
その法則で新しいデータの予測をする技術
Copyright 2016 FUJITSU LABORATORIES LTD.
過去のデータ
プレミアム会員に
ならなかった
なった
年齢
収入
予測モデル
年齢
収入
新しい会員の
データ
プレミアム会員になりそう
プレミアム会員にならなさそう
4
機械学習アルゴリズムの選び方?
アルゴリズムによって予測モデルの作り方が異なる
Copyright 2016 FUJITSU LABORATORIES LTD.
線形 非線形
10種類以上も候補があるから
どれが良いかわからない!!!
どちらの方が
良く当たる?
5
全部のアルゴリズムを試すために一工夫しました
 データ量を少しずつ大きくしながら、各アルゴリズムの精度向上を
見積もります
 予測精度が上がる可能性が高く、短時間に実行が終わる候補を選
定して優先実行します
 見込みのない候補はすばやく除外します
Copyright 2016 FUJITSU LABORATORIES LTD
サイズ
4000
学習時間
サイズ
1000
サイズ
2000
サイズ
4000
サイズ
8000
サイズ
1000
サイズ
2000
サイズ
1000
精度
サイズ
2000
サイズ
16000
現在の
最高精度
現在
時間はかかるが
データを増やせばまだ
精度向上
⇒ 優先的に実行
これ以上データを増やしても
精度が伸びない
⇒ 候補から除外
ロジスティック
回帰
SVM
(RBF)
ランダム
フォレスト
6
性能: 網羅的処理だと6日⇒2時間で完了
Copyright 2016 FUJITSU LABORATORIES LTD.
精
度
時間
6日弱2時間強
精度推定の準備期間 2時間に短縮
見込みのない候補を除外、有望な学習
候補のみに絞り込んで処理
色々な手法を並行して処理
アルゴリズム
データ量
10万 20万 40万 80万 … 2500万 5000万
Random Forest
[並列バギング]
51秒
76%
52秒
80%
69秒
81%
60秒
84%
1760秒
96%
†4338秒
97%
Random Forest
[Spark]
38秒
76%
49秒
76%
78秒
76%
114秒
76%
†1590秒
76%
†2695秒
76%
Gradient Boosting
[並列バギング]
96秒
76%
97秒
78%
119秒
81%
113秒
83%
1420秒
88%
3679秒
88%
Gradient Boosting [Spark] 434秒
88%
475秒
88%
544秒
88%
691秒
88%
†5221秒
88%
†7933秒
88%
Support Vector Machine
(RBF kernel) [並列バギング]
529秒
73%
609秒
73%
815秒
79%
1,348秒
81%
†1.3日 †約3日
7
こんな技術でできています
 サンプリングした小さなデータの学習履歴から、動的に実行時間と
学習した予測モデルの精度を推定する技術
 見込みのあるアルゴリズム・動作条件に素早く絞り込み実行する
技術
Copyright 2016 FUJITSU LABORATORIES LTD
分析
結果大量
データ
機械
学習
並列処理
実装選択
アルゴリ
ズム選択
パラメータ
選択 予測
精度
検証サンプ
リング
サンプル率
選択
学習用データ
検証用データ
2.自動チューニングする制御
1.実行時間と予測精度を推定
性能
ナレッジ
時間・精度推定
組合せ
予測
モデル
Apache Sparkによる並列インメモリ処理
サンプル率決定を
前処理ではなく
制御対象とした
8
UCB AMPLabとの研究交流
 機械学習の自動化・高速化を目指したAMPLabのkeystonML
プロジェクトのメンバーと研究交流を行っています
 AMPLabのスポンサーもしています
Copyright 2016 FUJITSU LABORATORIES LTD
Yarn (Hadoop 2.0)
HDFS, S3 …
Tachyon
Apache Spark (core)
Spark
Streaming
SparkSQL GraphX MLlib
Apache Spark
AMPLab研究
OSS Spark
Hadoop
富士通研究所
その他
BlinkDB
Sample
Clean
SparkR
keystoneML
(UCB)
機械学習
自動化
R
Pyt
hon
9
10

More Related Content

Viewers also liked

HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svmtetsuro ito
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Cloudera Japan
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013Cloudera Japan
 
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライドHadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライドhamaken
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
Top 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applicationsTop 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applicationshadooparchbook
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
SVMについて
SVMについてSVMについて
SVMについてmknh1122
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tatsuya Tojima
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成Prunus 1350
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 

Viewers also liked (16)

HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svm
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013
 
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライドHadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライド
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
Top 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applicationsTop 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applications
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
SVMについて
SVMについてSVMについて
SVMについて
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 

Recently uploaded

2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用KLab Inc. / Tech
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルCRI Japan, Inc.
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルCRI Japan, Inc.
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdkokinagano2
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイントonozaty
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperleger Tokyo Meetup
 
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfTakayuki Nakayama
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (8)

2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイント
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
 

自動的なビッグデータ機械学習技術:Spark上で複数の学習アルゴリズムの自動選択が可能に