More Related Content
Similar to Nttr study 20130206_share
Similar to Nttr study 20130206_share (20)
Nttr study 20130206_share
- 5. ビッグデータ活用の現状
医療
創薬
病気の診断
ゲノミクス
物理シミュレーション
気象シミュレーション
地震・津波シミュレーション
インターネット検索
Web
Twitter
SNS
経済
POSデータ
トレンド分析
- 6. 情報爆発
(IBM Corporation資料より)
- 8. 機械学習アルゴリズム
k-平均法 (k-means)
サポートベクターマシン (SVM; Support Vector Machine)
HITS (Hyperlink-Induced Topic Search)
スペクトラル・クラスタリング (Spectral Clustering)
ランダム・フォレスト (Random Forest)
局所性鋭敏型ハッシュ (LSH; Locality Sensitive Hashing)
潜在的ディリクレ分配法 (LDA; Latent Dirichlet Allocation)
ラベル伝播法 (Label Propagation)
確率的潜在意味索引付け (PLSI; Probabilistic Latent Semantic
Indexing)
条件付き確率場 (CRF; Conditional Random Fields)
他にも様々なアルゴリズムが使われている
- 16. 質問応答システム Watson
(IBM and the Jeopardy Challenge http://www.youtube.com/watch?v=KVM6KKRa12g より)
- 20. 創薬
機械学習予測システム (k-MUSES)
理化学研究所で開発している機械学習活性判別システム
http://www.riken.jp/dmp/bunshi.html
Merck Molecular Activity Challenge
製薬企業メルク主催による化合物活性予測コンテスト
https://www.kaggle.com/c/MerckActivity
http://blog.kaggle.com/2012/10/31/merck-
competition-results-deep-nn-and-gpus-come-out-
to-play/
- 21. 創薬: インシリコスクリーニング
化合物データベース
10万~1,000万化合物
ドッキングにより
化合物を濃縮
1,000~10,000化合物
機械学習
活性判別システム
選択された化合物
100~1,000化合物
(理化学研究所 創薬・医療技術基盤プログラム資料より)
- 22. 創薬: 機械学習活性判別システム
機械学習アルゴリズムを利用しな
い場合と比較して数倍の精度を確
認。
サポートベクターマシン(SVM)を利用
(理化学研究所 創薬・医療技術基盤プログラム資料より)
- 23. 創薬: ADMET予測技術
サポートベクターマシン(SVM)やランダムフォレストを利用
(理化学研究所 創薬・医療技術基盤プログラム資料より)
- 24. 創薬: Merck Molecular Activity Challenge
大手製薬企業メルクによる化合物活性の予測
高い精度で予測することで創薬の大きな助けとなる
近年注目されているDeep Learningというアルゴリ
ズムが特に良い予測をした
データ分析コンペサイト Kaggleによるコンテスト
- 25. プログラミングコンテスト
Kaggle
製薬企業による化合物活性予測
戸籍調査の返信予測
モバイルサイトによる購入予測
TopCoder
NASAによる車両画像認識
NASAによるクレーター画像判別
米研究所による大豆の生産予測
都市における病気や犯罪などの危険予測
- 26. Kaggle
データ分析コンペティションサイト
データサイエンティストの多くが参加
データマイニング系のコンテストで有名な
KDD Cupなども開催
- 27. TopCoder
世界最大手の競技プログラミングサイト
世界中の優秀なハッカーが腕を競い合う
様々なジャンルのコンテストがあるが、アル
ゴリズムを扱ったコンテストが一般的
特にマラソンマッチと呼ばれる2~3週間を
期限とするコンテストでデータ分析系の問題
が出される
- 28. 社内プログラミングコンテスト: 年収額予測
ある都市で継続的に戸口・財産調査が行われた。そ
れらをまとめたデータセットがコンテスト参加者に
与えられている。そのデータセットには年収額を含
む18の項目がある。
年収額が伏せられた別のデータセット(17項目)が与
えられたとき、年収額の予測を行うことが今回の問
題となる。
14.4万件の訓練データ → 5万件を予想
1. 年齢 10. 学校への在籍
2. 性別 11. 就業について
3. 人種 12. 労働者の種別
年収額
4. 婚姻 13. 昨年内に労働した週数
5. 出産数 14. 先週に労働した時間数
6. 誕生地 15. 最後に労働した年
7. 農家かどうか 16. 5年以内の移住について
8. 住居の所有権 17. 職場への主な交通手段
9. 世帯主との関係
- 29. 評価方法
% ./exe_file train.dat test.dat
1回の実行に用いるテストデータファイル内のデータ数は1,000件とし、暫定テ
ストデータ5,000件は5ファイル、最終テストデータ50,000件は50ファイルに分
割され、ファイルごとに実行される。ここでは、1ファイル(1,000件)を1ケース
とする。
実際の年収額と予測した年収額の二乗平均平方根誤差(RMSE)を求め、以下の式
でスコアが与えられる。1ケースが1,000件であることから、 n=1000 とする。
- 31. コンテストの結果
順位 氏名 最終スコア 暫定スコア 言語 最終投稿日時
1 *** 47.526946 45.667594 Ruby 2012/6/30 20:02
2 *** 47.189242 45.363833 Haskell 2012/6/30 22:13
3 *** 47.172834 45.910145 C++ 2012/6/30 16:26
4 *** 45.030060 43.658967 Python 2012/6/27 23:59
5 *** 44.871869 42.659491 C 2012/6/29 9:53
6 *** 44.697920 46.124126 Python 2012/6/30 16:14
7 *** 44.468423 42.560599 C++ 2012/6/26 9:54
8 *** 42.639191 40.837311 Ruby 2012/6/30 23:33
9 *** 35.959067 35.051351 C++ 2012/5/16 20:00
10 *** 35.614639 34.813002 Python 2012/5/16 20:00