産業技術総合研究所情報技術研究部門 
主任研究員油井誠 
大規模機械学習基盤構築の取組み 
1 
Large-scale machine learning for the rest of us 
WebDB forum 2014 
1 / 10
自己紹介 
学部 
修士 
博士 (NAIST) 
ポスドク (CWI) 
産総研 
Web 2.0/AJAXの流行による 
データベースへの 
トランザクションの急増 
大量データの価値化 
・PostgreSQLを改造して 
XML取り扱い機能を付与 
・フロムスクラッチから XML専用のDBを開発 
・メニーコアを活かした 超並列DBの研究開発 
・ロックフリーのページ 置換アルゴリズムの開発 
従来の関係データベースでは 
上手く扱えない 
XMLデータが増加 
・大規模機械学習の並列 処理 
・並列データ処理基盤 
WebDB forum 2014 2 
2 / 10
Hivemallとは 
Apache Hadoopのエコシステム上に構築したオープン ソースの機械学習ライブラリ 
3 
Hadoop HDFS 
MapReduce 
(MRv1) 
Hive/PIG 
クエリ処理系 
Hivemall 
Apache YARN 
Apache Tez 
DAG処理系 
Apache MESOS 
Apache Spark 
DAG処理系 
Spark MLlib 
MR 
v2 
SparkSQL 
分散ファイルシステム 
リソース管理システム 
並列処理フレームワーク 
問合せ処理系 
機械学習ライブラリ 
github.com/myui/hivemall(bit.ly/hivemall) 
WebDB forum 2014 
3 / 10
•クラス分類(二値分類/多値 分類) 
Perceptron 
Passive Aggressive (PA) 
Confidence Weighted (CW) 
Adaptive Regularization of Weight Vectors (AROW) 
Soft Confidence Weighted (SCW) 
AdaGrad+RDA 
•回帰分析 
確率的勾配降下法に基づくロジス ティック回帰 
PA Regression 
AROW Regression 
AdaGrad 
AdaDELTA 
4 
Hivemallが提供する機能 
•K近傍法& レコメンデーション 
Minhashとb-Bit Minhash(LSH variant) 
類似度に基づくK近傍探索 
•Feature engineering 
Feature hashing 
Feature scaling (normalization, z-score) 
TF-IDF vectorizer 
WebDB forum 2014 
4 / 10
SQLベースの宣言的かつ容易な記述 
5 
Hivemallの特徴 
Mahoutによるプログラミング 
CREATE TABLE lr_modelAS 
SELECT 
feature, --reducers perform model averaging in parallel 
avg(weight) as weight 
FROM ( 
SELECT logress(features,label,..) as (feature,weight) 
FROM train 
) t --map-only task 
GROUP BY feature; --shuffled to reducers 
一般的なエンジニアでも機械学習を扱える 
WebDB forum 2014 
5 / 10
6 
学習器1 
学習器2 
学習器N 
パラメタ 
交換 
学習 
モデル 
分割された訓練例 
データ並列 
データ並列 
(モデルパラメタ) 
Hivemallにおける工夫点 
1.データを増幅することで機械学習の繰り返し処理 を避けている 
2.関係演算の並列処理に適した実行形態 
3.低レイテンシのパラメタ交換(外部プロセスとの通信による) 
WebDB forum 2014 
6 / 10
Hivemallの性能 
7 
Vowpal Wabbit(VW1)…高速な機械学習ライブラリとして最も著名なもの 
VW32…Vowpal Wabbitを32ノードのHadoop環境で動かしたもの 
Bismarck…データベース上で動作する機械学習ライブラリとして著名なもの 
Spark…UC Berkeleyが提供する最近最も注目される機械学習フレームワーク 
一般に使われるライブラリでは4時間以上かかる処理を32台で2分以内に処理 
同等精度のVWでは597.67秒(約10分)で5倍以上高速 
116.4 
596.67 
493.81 
755.24 
465 
0 
100 
200 
300 
400 
500 
600 
700 
800 
Hivemall 
VW1 
VW32 
Bismarck 
Spark 1.0 
0.64 
0.66 
0.68 
0.7 
0.72 
0.74 
0.76 
Hivemall 
VW1 
VW32 
Bismarck 
KDD Cup 2012, Track 2: 
データ:中国の検索エンジンプロバイダ提供の実データ(機械学習のPublicなデータとして最大級) 
訓練データは2億レコード以上、特徴数は5千万以上 
タスク:検索エンジン広告の広告クリックスルー率(CTR)推定 
CTR=(広告の)クリック数/ (広告の)表示数 
WebDB forum 2014 
7 / 10
資金提供型共同研究:(株)ロックオン 
•インターネット広告効果測定 
•Eコマースプラットフォーム 
•リスティング(検索連動)広告管理 
企業での利用及び開発への参加・貢献 
•(株)フリークアウト 
•国内初のリアルタイム広告入札サービス提供企業 
•(株)スケールアウト 
•広告配信プラットフォーム提供企業、KDDIが買収 
•トレジャーデータ(米) 
•データ収集・保管・分析のHadoop as a Service提供 
等 
Hivemallの広告関連企業での導入事例 
WebDB forum 2014 8 
8 / 10
•Hadoop Summit2014に日本から唯一の採択 
•米InfoWorld誌選定 Best Open Source SoftwareAward 2014 受賞 
•他は世界的にも著名なソフトばかり 
•R(統計解析向けプログラム言語) 
•Hadoop 
•Hive 
•Storm(ストリーム処理基盤) 
•Cassandra(非SQLデータベースシステム) 
•Neo4J(グラフデータベースシステム) 
•KNIME(ワークフローシステム) 
•etc. 
9 
研究成果のアウトリーチ活動の成果 
InfoWorld誌はIDGの発行するCIO/ITマネージャ向けの 業界誌としてリーディングソース 
WebDB forum 2014 
9 / 10
•Hadoop/Hiveに基づく機械学習フレームワーク 
•SQLベースの簡単な記述方法を提供 
•データ量の増大に対してスケールする 
•米国業界誌からビッグデータ分析のベストツールとして 受賞 
•インターネット広告企業を中心にビジネスで使われ つつある 
•Apache等オープンソースコミュニティへの貢献 
→ Apache incubatorに提案予定 
10 
Hivemallのまとめ 
github.com/myui/hivemall(bit.ly/hivemall) 
WebDB forum 2014 
10 / 10
11 
産業界にインパクトのある研究とは何か? 
産業界にインパクトを与えた論文は何か? 
問を少し変えてみる 
WebDB forum 2014
12 
SIGMOD Test of Time Awardからのピックアップ 
A Case for Redundant Arrays of Inexpensive Disks (RAID). David A. Patterson, Garth A. Gibson, and Randy H. Katz, In Proc.SIGMOD, 1988. 
引用数3281 
Encapsulation of Parallelism in the Volcano Query Processing System. Goetz Graefe, In Proc. SIGMOD, 1990. 
引用元383 
Mining Association Rules Between Sets of Items in Large Databases. Rakesh Agrawal, Tomasz Imielinski, and Arun Swam 
引用元15008 
RAIDの提案、ストレージビジネスへの影響大 
Volcano Iterator Modelの提案 
多くのRDBMS(Postgres/MySQLも)がこの実行モデルに基づく 
Aprioriアルゴリズムの提案 
Data miningon RDBMSの草分け 
WebDB forum 2014
13 
SIGMOD Test of Time Awardからのピックアップ 
WebDB forum 2014
•J Dean, S Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", Proc. OSDI, 2004. 
•MateiZaharia, MosharafChowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica, “Spark: cluster computing with working sets”, Proc. HotCloud(USENIX workshop), 2010. 
14 
AMPLabの学生は初期は論文はあまり出ないかもしれないが 
プロジェクトに集中するように言われていたらしい. 
研究よりも実装が研究面への注目を喚起している 
産業界への影響,学術面での影響を考慮しても外せない 
オープンソース実装Hadoopが登場したことも大きい 
(BigQueryの基礎となっているDremelは代替実装が生まれていない) 
OS系会議からのピックアップ 
DB系だとビジネス創生、OS系会議だとオープンソース実装が重要 
WebDB forum 2014
既に登場しているもの 
•仮想化技術+ DB 
•FPGA + DB 
•InfinibandRDMA + DB 
•KVS + FPGA / InfinibandRDMA 
•H/Wトランザクショナルメモリ+DB 
まだ登場していないもの 
•機械学習+ アクセラレータ/FPGA 
•機械学習+ 高速ネットワーク 
•NVRAM + DBMS 
•組込み/IoT用データ処理 
•Query shipping/Continuous queries処理のオフロード 
•TCP/IP、MQTTの代替プロトコルfor IoT-DB 
15 
OS層からDB層の技術を融合した世界と戦える研究は何か? 
WebDB forum 2014
16 
学習器1 
学習器2 
学習器N 
パラメタ 
交換 
学習 
モデル 
分割された訓練例 
データ並列 
データ並列 
(モデルパラメタ) 
Mu Li, David G. Andersen, Jun W. Park, et al.,"Scaling Distributed Machine Learning with the Parameter Server", Proc. OSDI, 2014. 
OS層からDB層の技術を融合した世界と戦える研究は何か? 
超低レイテンシ/Line rateのパラメタ交換 
(FPGA+高速ネットワーク) 
WebDB forum 2014

Panel Discussion@WebDB forum 2014

  • 1.
  • 2.
    自己紹介 学部 修士 博士 (NAIST) ポスドク (CWI) 産総研 Web 2.0/AJAXの流行による データベースへの トランザクションの急増 大量データの価値化 ・PostgreSQLを改造して XML取り扱い機能を付与 ・フロムスクラッチから XML専用のDBを開発 ・メニーコアを活かした 超並列DBの研究開発 ・ロックフリーのページ 置換アルゴリズムの開発 従来の関係データベースでは 上手く扱えない XMLデータが増加 ・大規模機械学習の並列 処理 ・並列データ処理基盤 WebDB forum 2014 2 2 / 10
  • 3.
    Hivemallとは Apache Hadoopのエコシステム上に構築したオープンソースの機械学習ライブラリ 3 Hadoop HDFS MapReduce (MRv1) Hive/PIG クエリ処理系 Hivemall Apache YARN Apache Tez DAG処理系 Apache MESOS Apache Spark DAG処理系 Spark MLlib MR v2 SparkSQL 分散ファイルシステム リソース管理システム 並列処理フレームワーク 問合せ処理系 機械学習ライブラリ github.com/myui/hivemall(bit.ly/hivemall) WebDB forum 2014 3 / 10
  • 4.
    •クラス分類(二値分類/多値 分類) Perceptron Passive Aggressive (PA) Confidence Weighted (CW) Adaptive Regularization of Weight Vectors (AROW) Soft Confidence Weighted (SCW) AdaGrad+RDA •回帰分析 確率的勾配降下法に基づくロジス ティック回帰 PA Regression AROW Regression AdaGrad AdaDELTA 4 Hivemallが提供する機能 •K近傍法& レコメンデーション Minhashとb-Bit Minhash(LSH variant) 類似度に基づくK近傍探索 •Feature engineering Feature hashing Feature scaling (normalization, z-score) TF-IDF vectorizer WebDB forum 2014 4 / 10
  • 5.
    SQLベースの宣言的かつ容易な記述 5 Hivemallの特徴 Mahoutによるプログラミング CREATE TABLE lr_modelAS SELECT feature, --reducers perform model averaging in parallel avg(weight) as weight FROM ( SELECT logress(features,label,..) as (feature,weight) FROM train ) t --map-only task GROUP BY feature; --shuffled to reducers 一般的なエンジニアでも機械学習を扱える WebDB forum 2014 5 / 10
  • 6.
    6 学習器1 学習器2 学習器N パラメタ 交換 学習 モデル 分割された訓練例 データ並列 データ並列 (モデルパラメタ) Hivemallにおける工夫点 1.データを増幅することで機械学習の繰り返し処理 を避けている 2.関係演算の並列処理に適した実行形態 3.低レイテンシのパラメタ交換(外部プロセスとの通信による) WebDB forum 2014 6 / 10
  • 7.
    Hivemallの性能 7 VowpalWabbit(VW1)…高速な機械学習ライブラリとして最も著名なもの VW32…Vowpal Wabbitを32ノードのHadoop環境で動かしたもの Bismarck…データベース上で動作する機械学習ライブラリとして著名なもの Spark…UC Berkeleyが提供する最近最も注目される機械学習フレームワーク 一般に使われるライブラリでは4時間以上かかる処理を32台で2分以内に処理 同等精度のVWでは597.67秒(約10分)で5倍以上高速 116.4 596.67 493.81 755.24 465 0 100 200 300 400 500 600 700 800 Hivemall VW1 VW32 Bismarck Spark 1.0 0.64 0.66 0.68 0.7 0.72 0.74 0.76 Hivemall VW1 VW32 Bismarck KDD Cup 2012, Track 2: データ:中国の検索エンジンプロバイダ提供の実データ(機械学習のPublicなデータとして最大級) 訓練データは2億レコード以上、特徴数は5千万以上 タスク:検索エンジン広告の広告クリックスルー率(CTR)推定 CTR=(広告の)クリック数/ (広告の)表示数 WebDB forum 2014 7 / 10
  • 8.
    資金提供型共同研究:(株)ロックオン •インターネット広告効果測定 •Eコマースプラットフォーム •リスティング(検索連動)広告管理 企業での利用及び開発への参加・貢献 •(株)フリークアウト •国内初のリアルタイム広告入札サービス提供企業 •(株)スケールアウト •広告配信プラットフォーム提供企業、KDDIが買収 •トレジャーデータ(米) •データ収集・保管・分析のHadoop as a Service提供 等 Hivemallの広告関連企業での導入事例 WebDB forum 2014 8 8 / 10
  • 9.
    •Hadoop Summit2014に日本から唯一の採択 •米InfoWorld誌選定Best Open Source SoftwareAward 2014 受賞 •他は世界的にも著名なソフトばかり •R(統計解析向けプログラム言語) •Hadoop •Hive •Storm(ストリーム処理基盤) •Cassandra(非SQLデータベースシステム) •Neo4J(グラフデータベースシステム) •KNIME(ワークフローシステム) •etc. 9 研究成果のアウトリーチ活動の成果 InfoWorld誌はIDGの発行するCIO/ITマネージャ向けの 業界誌としてリーディングソース WebDB forum 2014 9 / 10
  • 10.
    •Hadoop/Hiveに基づく機械学習フレームワーク •SQLベースの簡単な記述方法を提供 •データ量の増大に対してスケールする •米国業界誌からビッグデータ分析のベストツールとして 受賞 •インターネット広告企業を中心にビジネスで使われ つつある •Apache等オープンソースコミュニティへの貢献 → Apache incubatorに提案予定 10 Hivemallのまとめ github.com/myui/hivemall(bit.ly/hivemall) WebDB forum 2014 10 / 10
  • 11.
  • 12.
    12 SIGMOD Testof Time Awardからのピックアップ A Case for Redundant Arrays of Inexpensive Disks (RAID). David A. Patterson, Garth A. Gibson, and Randy H. Katz, In Proc.SIGMOD, 1988. 引用数3281 Encapsulation of Parallelism in the Volcano Query Processing System. Goetz Graefe, In Proc. SIGMOD, 1990. 引用元383 Mining Association Rules Between Sets of Items in Large Databases. Rakesh Agrawal, Tomasz Imielinski, and Arun Swam 引用元15008 RAIDの提案、ストレージビジネスへの影響大 Volcano Iterator Modelの提案 多くのRDBMS(Postgres/MySQLも)がこの実行モデルに基づく Aprioriアルゴリズムの提案 Data miningon RDBMSの草分け WebDB forum 2014
  • 13.
    13 SIGMOD Testof Time Awardからのピックアップ WebDB forum 2014
  • 14.
    •J Dean, SGhemawat, "MapReduce: Simplified Data Processing on Large Clusters", Proc. OSDI, 2004. •MateiZaharia, MosharafChowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica, “Spark: cluster computing with working sets”, Proc. HotCloud(USENIX workshop), 2010. 14 AMPLabの学生は初期は論文はあまり出ないかもしれないが プロジェクトに集中するように言われていたらしい. 研究よりも実装が研究面への注目を喚起している 産業界への影響,学術面での影響を考慮しても外せない オープンソース実装Hadoopが登場したことも大きい (BigQueryの基礎となっているDremelは代替実装が生まれていない) OS系会議からのピックアップ DB系だとビジネス創生、OS系会議だとオープンソース実装が重要 WebDB forum 2014
  • 15.
    既に登場しているもの •仮想化技術+ DB •FPGA + DB •InfinibandRDMA + DB •KVS + FPGA / InfinibandRDMA •H/Wトランザクショナルメモリ+DB まだ登場していないもの •機械学習+ アクセラレータ/FPGA •機械学習+ 高速ネットワーク •NVRAM + DBMS •組込み/IoT用データ処理 •Query shipping/Continuous queries処理のオフロード •TCP/IP、MQTTの代替プロトコルfor IoT-DB 15 OS層からDB層の技術を融合した世界と戦える研究は何か? WebDB forum 2014
  • 16.
    16 学習器1 学習器2 学習器N パラメタ 交換 学習 モデル 分割された訓練例 データ並列 データ並列 (モデルパラメタ) Mu Li, David G. Andersen, Jun W. Park, et al.,"Scaling Distributed Machine Learning with the Parameter Server", Proc. OSDI, 2014. OS層からDB層の技術を融合した世界と戦える研究は何か? 超低レイテンシ/Line rateのパラメタ交換 (FPGA+高速ネットワーク) WebDB forum 2014