Nttr study 20130206_share

ビッグデータの分析手法

機械学習アルゴリズムとその応用

2013年2月6日(水)
Copyright © Fixstars Corporation. All rights reserved.

自己紹介

@foota, nox
株式会社フィックスターズ所属
 並列処理・GPGPU・高速化
以前は理化学研究所の研究員
 薬学 / 創薬の研究
 分子動力学(MD)・分子軌道法(MO)
ブログ「良いもの。悪いもの。」
 http://handasse.blogspot.com/

本日話すこと

ビッグデータと機械学習
機械学習アルゴリズムについて
 k-平均法
 サポートベクターマシン
 HITS
 スペクトラルクラスタリング
機械学習アルゴリズムの活用事例
 質問応答システム
 創薬
 データ分析プログラミングコンテスト

ビッグデータと機械学習
ビッグデータと呼ばれる膨大で多様なデータ
 非構造化データであることが多い
 膨大な量
 一見して関連性を見出すことが難しい
有益な情報を取り出すことが困難
 いかにして情報を取り出すか
分析の手段としての機械学習
 データの特徴を捉え、識別し、そして予測を行う
 人間の学習を模したもの
 コンピュータにより自動的に行う
機械学習アルゴリズムがどのようにビッグデータを分
析して有用な情報を抽出するのか?

ビッグデータ活用の現状
医療
 創薬
 病気の診断
 ゲノミクス
物理シミュレーション
 気象シミュレーション
 地震・津波シミュレーション
インターネット検索
 Web
 Twitter
 SNS
経済
 POSデータ
 トレンド分析

情報爆発

(IBM Corporation資料より)

機械学習アルゴリズムについて

機械学習アルゴリズム
k-平均法 (k-means)
サポートベクターマシン (SVM; Support Vector Machine)
HITS (Hyperlink-Induced Topic Search)
スペクトラル・クラスタリング (Spectral Clustering)
ランダム・フォレスト (Random Forest)
局所性鋭敏型ハッシュ (LSH; Locality Sensitive Hashing)
潜在的ディリクレ分配法 (LDA; Latent Dirichlet Allocation)
ラベル伝播法 (Label Propagation)
確率的潜在意味索引付け (PLSI; Probabilistic Latent Semantic
Indexing)
条件付き確率場 (CRF; Conditional Random Fields)
他にも様々なアルゴリズムが使われている

k-平均法 (k-means)



(C. M. Bishop, PRMLより)

サポートベクターマシン (SVM)

SVM(サポートベクターマシン)は、二値のパターン
識別器を構成するアルゴリズムであり、訓練データ
から、各データ点との距離が最大となる分離平面を
求めるマージン最大化という基準でパラメータを学
習する。
SVMを利用できるライブラリとしてLIBSVMなどが
有名。
 http://www.csie.ntu.edu.tw/~cjlin/libsvm/

スペクトラルクラスタリング

入力データに対し、k-近傍法
(k-NN)による隣接行列を作る
(対称行列になるように
mutual k-NNとする)。
上記の隣接行列に対して正規
化カットした結果をk-means
などでクラスタリングする。

スペクトラルグラフ理論

隣接行列に対する正規化カット(Normalized Cut)は
NP困難となるが、グラフラプラシアンの固有値問題
に帰着できる。

機械学習アルゴリズムの活用事例

質問応答システム Watson

(IBM and the Jeopardy Challenge http://www.youtube.com/watch?v=KVM6KKRa12g より)

技術的課題

幅広い分野への対応
問題文とカテゴリの解釈
高い正答率での回答
確信度の推定
応答速度

(情報処理 Vol.52 No.7 July 2011 p.840 日本IBM東京基礎研究所資料より)

回答率の正解率の向上

初期のシステムと番組勝者との比較性能向上の履歴


Watsonの仕組み – DeepQAフレームワーク


創薬

機械学習予測システム (k-MUSES)
 理化学研究所で開発している機械学習活性判別システム
 http://www.riken.jp/dmp/bunshi.html
Merck Molecular Activity Challenge
 製薬企業メルク主催による化合物活性予測コンテスト
 https://www.kaggle.com/c/MerckActivity
 http://blog.kaggle.com/2012/10/31/merck-
competition-results-deep-nn-and-gpus-come-out-
to-play/

創薬: インシリコスクリーニング

化合物データベース
10万～1,000万化合物

ドッキングにより
化合物を濃縮
1,000～10,000化合物

機械学習
活性判別システム

選択された化合物
100～1,000化合物

(理化学研究所創薬・医療技術基盤プログラム資料より)

創薬: 機械学習活性判別システム

機械学習アルゴリズムを利用しな
い場合と比較して数倍の精度を確
認。

サポートベクターマシン(SVM)を利用


創薬: ADMET予測技術

サポートベクターマシン(SVM)やランダムフォレストを利用


創薬: Merck Molecular Activity Challenge

大手製薬企業メルクによる化合物活性の予測
高い精度で予測することで創薬の大きな助けとなる
近年注目されているDeep Learningというアルゴリ
ズムが特に良い予測をした
データ分析コンペサイト Kaggleによるコンテスト

プログラミングコンテスト

Kaggle
 製薬企業による化合物活性予測
 戸籍調査の返信予測
 モバイルサイトによる購入予測
TopCoder
 NASAによる車両画像認識
 NASAによるクレーター画像判別
 米研究所による大豆の生産予測
 都市における病気や犯罪などの危険予測

Kaggle

データ分析コンペティションサイト
データサイエンティストの多くが参加
 データマイニング系のコンテストで有名な
KDD Cupなども開催

TopCoder

世界最大手の競技プログラミングサイト
世界中の優秀なハッカーが腕を競い合う
 様々なジャンルのコンテストがあるが、アル
ゴリズムを扱ったコンテストが一般的
 特にマラソンマッチと呼ばれる2～3週間を
期限とするコンテストでデータ分析系の問題
が出される

社内プログラミングコンテスト: 年収額予測
ある都市で継続的に戸口・財産調査が行われた。そ
れらをまとめたデータセットがコンテスト参加者に
与えられている。そのデータセットには年収額を含
む18の項目がある。
年収額が伏せられた別のデータセット(17項目)が与
えられたとき、年収額の予測を行うことが今回の問
題となる。
14.4万件の訓練データ → ５万件を予想

1. 年齢 10. 学校への在籍
2. 性別 11. 就業について
3. 人種 12. 労働者の種別

年収額
4. 婚姻 13. 昨年内に労働した週数
5. 出産数 14. 先週に労働した時間数
6. 誕生地 15. 最後に労働した年
7. 農家かどうか 16. 5年以内の移住について
8. 住居の所有権 17. 職場への主な交通手段
9. 世帯主との関係

評価方法
% ./exe_file train.dat test.dat

1回の実行に用いるテストデータファイル内のデータ数は1,000件とし、暫定テ
ストデータ5,000件は5ファイル、最終テストデータ50,000件は50ファイルに分
割され、ファイルごとに実行される。ここでは、1ファイル(1,000件)を1ケース
とする。

実際の年収額と予測した年収額の二乗平均平方根誤差(RMSE)を求め、以下の式
でスコアが与えられる。1ケースが1,000件であることから、 n=1000 とする。

解答に使われた機械学習アルゴリズム

ランダムフォレスト
ロジスティック回帰
C5.0
多層パーセプトロンによる誤差逆伝播法
素性に基づく行列因子分解

コンテストの結果

順位氏名最終スコア暫定スコア言語最終投稿日時

1 *** 47.526946 45.667594 Ruby 2012/6/30 20:02

2 *** 47.189242 45.363833 Haskell 2012/6/30 22:13

3 *** 47.172834 45.910145 C++ 2012/6/30 16:26

4 *** 45.030060 43.658967 Python 2012/6/27 23:59

5 *** 44.871869 42.659491 C 2012/6/29 9:53

6 *** 44.697920 46.124126 Python 2012/6/30 16:14

7 *** 44.468423 42.560599 C++ 2012/6/26 9:54

8 *** 42.639191 40.837311 Ruby 2012/6/30 23:33

9 *** 35.959067 35.051351 C++ 2012/5/16 20:00

10 *** 35.614639 34.813002 Python 2012/5/16 20:00

コンテストの考察
1～3位のアルゴリズムはすべて異なり、それぞれ、ロ
ジスティック回帰、多層パーセプトロンによる誤差逆伝
播法、ランダムフォレストとなっている。
 一概にどのアルゴリズムが最も良いとは言い切れない。
なぜ勝者になれたのか?
 優勝者は暫定順位では3位だったが、開催期間のほぼすべての
時間を使い、訓練データを精査することで、外れ値をもつ
データを可能な限り除外した。
 暫定1位(最終結果3位)の方は短期間で効率よくアルゴリズム
を決定して訓練データでは高い予測精度を発揮した。
 最終テストにおいてより良い結果を挙げることができたのは
精度の高い訓練データであったことが示唆される。
データセットの調査とその精度はとても大事。

まとめ: ビッグデータと機械学習
様々なビッグデータに対して様々な機械学習アルゴリ
ズムが利用されている。
 重要な点は、アルゴリズムに合ったデータを選ぶのではな
く、データに合ったアルゴリズムを選ぶということ。
扱う対象を調査した上で方法を決定する。
 対象に特化した特徴がないか?
 大規模データなのか?
 速度と精度のバランスは?
 並列処理可能な問題か?
 Hadoopを利用? MPIを利用?
 分散ノード? メニーコア? GPGPU?

すべての大規模データに
適用できる銀の弾丸はない

ご清聴ありがとうございました

Nttr study 20130206_share

Recommended

Recommended

More Related Content

Similar to Nttr study 20130206_share

Similar to Nttr study 20130206_share (20)

Nttr study 20130206_share