Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
 Deep Learning技術の最近の動向
とPreferred Networksの取り組み
2014/12/9
株式会社  Preferred Networks
⼤大野健太 <oono@preferred.jp>
第21回先端的データベース...
⾃自⼰己紹介
•  ⼤大野健太(@delta2323_)
•  経歴:数理理科学研究科・修⼠士課程(共形幾何)
•  → 2012.3 PFI
•  → 2014.10 PFN
•  所属:研究班(担当領領域:理理論論解析・ライフサイエンス)
...
株式会社Preferred Networks
Preferred Infrastructure(PFI、2006年年創業)
l  検索索・機械学習のソフトウェア研究開発
Preferred Networks(PFN、2014年年設⽴立立)
l...
様々な分野への技術適⽤用のための連携
•  ⽇日本電信電話株式会社(NTT)様と
Deep Learningなどの次世代データ
解析技術開発を⽬目的とした資本・業
務提携契約締結
•  トヨタ⾃自動⾞車車社様と⾃自動運転技術研
究開発を⽬目的と...
Deep Learningを⽤用いた⾏行行動解析デモ(1/2)
5
位置推定+⼈人物追跡
⼈人物検出
属性推定
・向き(8⽅方向)
・性別(男⼥女女)
・帽⼦子(有無)
属性推定にDeep Learning
を⽤用いた分類器を利利⽤用
Deep Learningを⽤用いた⾏行行動解析デモ(2/2)
6
Intel様ブース内で出展
ITPRO EXPO AWARD 2014優秀賞を受賞
位置・属性推定結果
をUIで可視化
エリアごとに属性の
割合・頻度度を表⽰示
男⼥女女⽐比 ...
アジェンダ
•  データ解析⽅方法としての機械学習
•  データ解析の流流れ/機械学習の実応⽤用例例
•  Deep Learning技術の紹介
•  ブームのきっかけ/強さの根拠/得意分野/今後の課題
•  PFNの考える将来のデータ解析
•...
データ解析の典型的な流流れ
現象
⽣生データ
整形データ
情報
価値
Sense
Organize
Analyze
Action
S3
‘06/3
Simple DB
‘07/12
EBS
‘08/8
Glacier
‘12/8
RDS
‘09...
データの活⽤用⽅方法の⾼高度度化
→ データそのものに価値を置く動き
•  Data Citation Index(Reuter社)
•  論論⽂文の被引⽤用回数のデータセット版
•  GIGADB
•  公開データセットにDOIが付与
•  ...
機械学習とは?
•  データにより賢くなるアルゴリズムの研究
•  広い意味での⼈人⼯工知能の⼀一つ
応⽤用
•  スパム判定/レコメンド
* Dimensionality Reduction by Learning an Invariant ...
機械学習の典型的なプロセス
11
⽂文書
(0,        1,  2.5,  -‐‑‒1,  …)
(1,  0.5,      -‐‑‒2,    3,  …)
(0,        1,  1.5,    2,  …)
特徴ベクトル
...
12
分類結果の
根拠を可視化
訓練データ
管理理画⾯面
機械学習を⽤用いてデータを⾃自動分類
-  ⼈人では判別できなかった重要な判断基準を機械学習で分析
-  データを⾃自動分類し、分析に活⽤用できるメタ情報を追加
様々な分類アルゴリズムや特徴抽出⼿手法を⽤用意
-  分類アルゴリズム:AROW,...
機械学習の産業応⽤用例例
農業向けセンサーネットワークサービスの実証実験*
(住友精密⼯工業株式会社様、株式会社ブリスコラ様)
•  みかん栽培のビニールハウスの
温度度管理理や空調設備の異異常検知
にJubatusを利利⽤用
•  空調設備の...
アジェンダ
•  データ解析⽅方法としての機械学習
•  データ解析の流流れ/機械学習の実応⽤用例例
•  Deep Learning技術の紹介
•  ブームのきっかけ/強さの根拠/得意分野/今後の課題
•  PFNの考える将来のデータ解析
•...
x1
xN
・・・・・・
h1
hH
・・・・
典型的なNeural Network(多層パーセプトロン)
kM
k1
yM
y1
f1
f2
f3
W2/b2
W1/b1
tM
t1
損失関数で評価
正解ラベル⼊入⼒力力
Forward
Ba...
機械学習の典型的なプロセス(再掲)
17
⽂文書
(0,        1,  2.5,  -‐‑‒1,  …)
(1,  0.5,      -‐‑‒2,    3,  …)
(0,        1,  1.5,    2,  …)
特徴ベ...
特徴抽出は職⼈人技
•  特徴抽出の重要性
•  特徴の良良し悪しが学習精度度に⼤大きく影響
•  学習アルゴリズムの選択以上に精度度に効く場合も
•  特徴抽出は難しい
•  タスクごとに最適な特徴抽出⽅方法は異異なる
•  機械学習コンテス...
19
2012年年画像認識識コンテストで
Deep Learningを⽤用いたチームが優勝
→
ILSVRC2012
優勝チームSupervisonの結果
[Krizhevsky+ ‘12]
以下の2点で衝撃的だった
•  限界と思われた認識識...
Neural Netブーム
•  様々なコンペティションでDLが既存⼿手法を凌凌駕
•  16%(‘12) → 11%(‘13) → 6.6%(‘14)
•  各企業がDL研究者の獲得競争
•  Google/FaceBook/Microsof...
Deep Learningの強さの根拠(と⾔言われているもの)
概要
•  Neural Networkの構造
•  各パーツの改良良(ReLU/CNN/NiN)
•  層の増加→階層的な構造が表現可能に
•  深いNNを学習できるようになった...
Deep Learningの強さの根拠(と⾔言われているもの)
(1/3) Neural Networkの構造
•  各層の構造
•  ReLU[Nair+ ‘10]
•  CNN [LeCun+ ‘89]
•  Network in Netw...
Deep Learningの強さの根拠(と⾔言われているもの)
(2/3) Neural Networkの訓練⽅方法
•  Layerwise Pretrain[Bengio+’07]
•  Auto-Encoderの利利⽤用
•  確率率率的...
•  計算リソースとそれを扱う技術
•  GPGPUの普及
•  分散機械学習 (例例:DistBelief)
•  訓練に⼗十分なデータ
•  ImageNet:1400万枚の画像
•  Sports1M:100万本の動画
↑DistBeli...
Deep Learningの得意分野 (1/3)
マルチタスク学習:知識識を共有して複数問題を同時に解く
複数の問題でNNの中間層を共有
↓
問題に共通する有⽤用な特徴を学習
•  応⽤用:GWAS[Puniyani+’10], PheWAS
...
マルチタスク学習の威⼒力力:
定量量的構造活性相関(QSAR)での成功
* http://blog.kaggle.com/2012/10/31/merck-
competition-results-deep-nn-and-gpus-come-o...
Deep Learningの得意分野 (2/3)
マルチモーダル学習:複数種類データの統合による精度度向上
•  様々なメディア(映像・⾳音声・⽂文書)を
統合する技術として近年年注⽬目を集める
•  ⼊入⼒力力例例
テキスト + ⾳音声 / ...
Deep Learningの得意分野 (3/3)
特徴の⾃自動抽出・分散表現
•  単語ペアの類似度度推定タスク [Kiela+‘14]
•  各単語を2つのベクトルで表現(単語の分散表現+単語に紐紐づく画像の分散表現)
•  画像の分散表現に...
Deep Learning技術の課題・概要
•  理理論論解析が未整備
•  定⽯石といえるものがない
•  経験的に良良いとされる常識識が覆る
•  設計の⾃自由度度が⾼高い → チューニングが困難
•  特徴抽出職⼈人がNN設計職⼈人に変わ...
30
Deep Learning技術の課題 (1/2)
理理論論解析が未整備
•  理理論論解析の定⽯石と⾔言える⼿手法がまだない
•  例例:DNNの⽬目的関数最適化の収束を証明ができたケースはレア
•  経験的に良良いとされる定説が覆る
•...
Deep Learning技術の課題 (2/2)
設計の⾃自由度度が⾼高い = チューニングが難しい
•  設計時の選択肢:NNの設計は回路路設計に近い
•  ネットワーク(トポロジー/Layer数/Node数/活性化関数/損失関数)
•  学...
Deep Learningの最近の話題
•  マルチモーダルデータへの適⽤用
•  画像のキャプションを⾃自動⽣生成[Vinyal+ to appear]
•  Recurrent NN, LSTMを⽤用いた可変⻑⾧長データの解析
•  機械翻...
Deep Learning関連資料料
33
弊社メンバーもUstream /
Slideshare / Research Blog
などで資料料を公開しています
http://www.slideshare.net/pfi/deep-learni...
アジェンダ
•  データ解析⽅方法としての機械学習
•  データ解析の流流れ/機械学習の実応⽤用例例
•  Deep Learning技術の紹介
•  ブームのきっかけ/強さの根拠/得意分野/今後の課題
•  PFNの考える将来のデータ解析
•...
35
データ解析の典型的な流流れ(再掲)
現象
⽣生データ
整形データ
情報
価値
Sense
Organize
Analyze
Action
S3
‘06/3
Simple DB
‘07/12
EBS
‘08/8
Glacier
‘12/8
...
データ解析の各ステップで壁がある
現象
⽣生データ
整形データ
情報
価値
Sense
Organize
Analyze
Action
効⽤用
データが集められない
⼈人⼿手での解析が
ボトルネック
解析できる
⼈人材がいない
解析結果が経営の...
データ解析の壁 (1/3)
データを集約するアプローチの困難性
37
データ解析の壁 (2/3)
データ解析者への要件の多様化
l  いわゆる「データサイエンティスト」に必要なスキル
l  データ解析:確率率率統計学/数学/プログラミング/ドメイン知識識
l  経営判断への活⽤用の期待:コミュニケーション能...
データ解析の壁 (3/3)
データ解析者と意思決定者の間のギャップ
•  「有意差が出てXXXとわかりました」
→「なるほど、それで我が社は儲かる?」
•  「有意差が出てXXXとわかりました」
→「そんな事は経験的に知っている」
•  データ...
エッジヘビーコンピューティング[丸⼭山+ʼ’12]
データをネットワークの縁上で処理理する
•  クラウドの中央集権型の処理理から、エッジ側での協調処理理へと向かう
40
データ解析は全て⾃自動化されていなければならない
41
Unify  &  Generalize
Sensing  ,  Organize,  Analyze,  Action
•  Security
•  Privacy
•  Heterog...
分散インテリジェンスに関する経済予測
CiscoとGEの試算
Cisco : Internet of Everything(IoE)
IoEは⺠民間セクターにおいて今後10年年間で14
兆4000億ドルの機会の創出をもたらす
l  試算の活⽤...
アジェンダ
•  データ解析⽅方法としての機械学習
•  データ解析の流流れ/機械学習の実応⽤用例例
•  Deep Learning技術の紹介
•  ブームのきっかけ/強さの根拠/得意分野/今後の課題
•  PFNの考える将来のデータ解析
•...
ライフサイエンスにおけるデータ統合の必要性
•  疾患解析には異異なる種類のデータ間の関連・相関を調べる必要がある
•  バイオマーカーの探索索、遺伝⼦子診断
•  ⽣生命現象の複雑性:単⼀一のデータソースを⾒見見ても現象の全容を把握できな
い...
ライフサイエンスデータのOrganize
プロジェクト例例(1/2)
遺伝⼦子・転写物検索索 GGRNA
“Google-like full text search engine”
•  ライフサイエンス統合データベースセンター(DBCLS)・...
ライフサイエンスデータのOrganize
プロジェクト例例(2/2):GGGenome
•  ゲノム配列列の⾼高速曖昧検索索サービス
•  DDBJ Release 92.0の全塩基配列列を曖昧検索索可能
•  ヒト(hg19)、マウス(mm1...
GGRNA/GGGenome稼働実績
[マシンスペック]
2Uサーバー1台(CPU 6コア×2 3.46GHz/メモリ192GB)
GGGenome バージョン 塩基配列列 インデックス
RefSeq 61 8.6GB 52.4GB
DDBJ ...
48
構想:マルチタスク・マルチモーダル学習による
ヘテロジニアスなデータの横断的活⽤用の実現
遺伝⼦子発現
データ
シーケンス
データ
化合物
データ
疾患
データ
表現型
予測
⽅方策
推薦
診断
助⾔言
SQL
R&D 創薬 ヘルスケア医...
49
エッジヘビーコンピューティングとの関係
遺伝⼦子発現
データ
シーケンス
データ
化合物
データ
疾患
データ
表現型
予測
⽅方策
推薦
診断
助⾔言
SQL
R&D 創薬 ヘルスケア医療療
利利⽤用
解析プラットフォーム
巨⼤大な中間...
50
ライフサイエンス分野でのデータ活⽤用の問題
まだまだ⼭山積み
データ流流通の未整備
•  「データの⽣生成者」≠「解析による受益者」→  利利害の不不⼀一致
データ収集の壁
•  「実験データ解析コスト」<「実験データ作成コスト」
•  ...
まとめ
•  データ解析の典型的な流流れ:Sense, Organize, Analyze, Action
•  データを⾼高度度に活⽤用する⼿手段として機械学習が注⽬目を集めています
•  特徴抽出の⾃自動化・タスク精度度の⾶飛躍的向上などに...
参考⽂文献(1/5)
[Arora+’13] Arora, Sanjeev, et al. "Provable bounds for learning some deep representations." arXiv preprint
arX...
参考⽂文献(2/5)
[Dahl+’14] Dahl, George E., Navdeep Jaitly, and Ruslan Salakhutdinov. "Multi-task Neural Networks for
QSAR Pred...
参考⽂文献(3/5)
[Hinton+’14] Geoffrey Hinton, Oriol Vinyals, Jeff Dean, Distilling the Knowledge in a Neural Network, Deep
Lear...
参考⽂文献(4/5)
[Krizhevsky+ ’12] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with
deep ...
参考⽂文献(5/5)
[Puniyani+’10] K. Puniyani, S. Kim, and E. P. Xing, “Multi-population GWA mapping via multi-task
regularized re...
Copyright  ©  2014-‐‑‒
Preferred  Networks  All  Right  Reserved.
補⾜足資料料
Deep Learningを⽤用いた⾏行行動解析デモ(1/2)
(キャプション無し)
59
Deep Learningを⽤用いた⾏行行動解析デモ(2/2)
(キャプション無し)
60
(キャプション無し)
61
略略語⼀一覧
Deep Learning関連
•  DL : Deep Learning
•  NN : Neural Network
•  DNN : Deep Neural Network
•  CNN : Convolutional Ne...
63
⽤用語解説(1/3):アーキテクチャ関連
•  Net:Neural Net(NN)のアーキテクチャ全体
•  Node = Neuron、Unit
•  Nodeの集まりを(ややこしいが)○○層とも⾔言う
•  Layer:異異なる階層...
⽤用語解説(2/3):Layerに関する注意
•  論論⽂文ではNodeの中で活性化関数を含む事が多いが、実装では活性化関
数をLayerで実現することが多い
Y=σ(WX)
W
X
X
WX
Y
W
σ
64
minibatch j
⽤用語解説(3/3)
:訓練関連
Epoch 1
Epoch N
Epoch 2
Epoch i
Epoch i
全訓練データを
シャッフル
minibatch 1
訓練データ 2
minibatch 2
minibat...
Deep Learningの歴史(1/3)
•  Perceptron [Rosenblatt‘58]
•  「Perceptrons」でのPerceptron批判 [Minsky+ ‘69]
•  Back Propagation [Brys...
Deep Learningの歴史(2/3)
•  Bayesian Network [Pearl‘85] Support Vector Machine
[Corinna, Vapnik’95]
•  SVM・Boostingに押されてNNは冬の...
Deep Learningの歴史(3/3)
•  ILSVRCでSupervision[Krizhevsky+ 2012]が優勝
•  Google Brain[Le, Ng, Jeffrey+ 2012]
→ 現在まで続くDeep Learn...
ライフサイエンスデータ解析の壁(1/2)
•  Senseの壁:プライベート性
•  製薬企業の化合物データは企業秘密
•  ゲノムデータは究極の個⼈人情報
•  Organizeの壁:データの散財
•  研究成果のデータベースが乱⽴立立してい...
ライフサイエンスデータ解析の壁(2/2)
•  Organizeの壁:データのヘテロジニアス性
•  種類がバラバラ:テキスト/画像/センサー
•  ⽤用途がバラバラ:基礎研究/予防/医療療/ヘルスケア
•  データ量量がバラバラ:難病治験と1...
参考⽂文献(1/4)
[Bengio+’07] Bengio, Yoshua, et al. "Greedy layer-wise training of deep networks." Advances in neural
informati...
参考⽂文献(2/4)
[Hochreiter+’97] Hochreiter, Sepp, J. urgen Schmidhuber, and Corso Elvezia. "LONG SHORT-TERM
MEMORY." Neural Co...
参考⽂文献(3/4)
[Le+’13] Le, Quoc V. "Building high-level features using large scale unsupervised learning." Acoustics,
Speech ...
参考⽂文献(4/4)
[Salakhutdinov+’09] Salakhutdinov, Ruslan, and Geoffrey E. Hinton. "Deep boltzmann
machines." International Con...
Copyright  ©  2014-‐‑‒
Preferred  Networks  All  Right  Reserved.
Upcoming SlideShare
Loading in …5
×

Deep Learning技術の最近の動向とPreferred Networksの取り組み

25,469 views

Published on

2014年12月9日開催の「第21回 先端的データベースとWeb技術動向講演会 (ACM SIGMOD 日本支部第58回支部大会)」での講演資料を修正・加筆した
http://www.sigmodj.org/regist/conference_informations/11

Published in: Technology

Deep Learning技術の最近の動向とPreferred Networksの取り組み

  1. 1.  Deep Learning技術の最近の動向 とPreferred Networksの取り組み 2014/12/9 株式会社  Preferred Networks ⼤大野健太 <oono@preferred.jp> 第21回先端的データベースとWeb技術動向講演会 ACM SIGMOD ⽇日本⽀支部第58回⽀支部⼤大会 @東京⼤大学⽣生産技術研究所
  2. 2. ⾃自⼰己紹介 •  ⼤大野健太(@delta2323_) •  経歴:数理理科学研究科・修⼠士課程(共形幾何) •  → 2012.3 PFI •  → 2014.10 PFN •  所属:研究班(担当領領域:理理論論解析・ライフサイエンス) •  ブログ:http://delta2323.github.io 2
  3. 3. 株式会社Preferred Networks Preferred Infrastructure(PFI、2006年年創業) l  検索索・機械学習のソフトウェア研究開発 Preferred Networks(PFN、2014年年設⽴立立) l  IoTにフォーカスするためスピンオフ l  ディープラーニング等最新技術を開発 l  様々な業界向けソリューションを加速 l  製造業、交通、セキュリティ、⼩小売… 代表取締役 ⻄西川徹 取締役副社⻑⾧長 岡野原⼤大輔 機械学習 ディープラーニング (深層学習) 検索索エンジン / 分析ソフト 3
  4. 4. 様々な分野への技術適⽤用のための連携 •  ⽇日本電信電話株式会社(NTT)様と Deep Learningなどの次世代データ 解析技術開発を⽬目的とした資本・業 務提携契約締結 •  トヨタ⾃自動⾞車車社様と⾃自動運転技術研 究開発を⽬目的とした共同研究開発契 約締結 •  (PFI)  京都⼤大学iPS細胞研究所 (CiRA)様とiPS細胞機能メカニズム の解明・次世代シーケンサーデータ の解析における機械学習技術の応⽤用 を⽬目的とした共同研究契約締結 http://blogs.wsj.com/japanrealtime/ 2014/10/01/ntt-toyota-seek-deep-learning- expertise/ ↓ WSJ 2014/10/1
  5. 5. Deep Learningを⽤用いた⾏行行動解析デモ(1/2) 5 位置推定+⼈人物追跡 ⼈人物検出 属性推定 ・向き(8⽅方向) ・性別(男⼥女女) ・帽⼦子(有無) 属性推定にDeep Learning を⽤用いた分類器を利利⽤用
  6. 6. Deep Learningを⽤用いた⾏行行動解析デモ(2/2) 6 Intel様ブース内で出展 ITPRO EXPO AWARD 2014優秀賞を受賞 位置・属性推定結果 をUIで可視化 エリアごとに属性の 割合・頻度度を表⽰示 男⼥女女⽐比 スタッフの割合 年年齢構成 ジャケット 着⽤用の割合 ⼈人物追跡 ファンネル解析
  7. 7. アジェンダ •  データ解析⽅方法としての機械学習 •  データ解析の流流れ/機械学習の実応⽤用例例 •  Deep Learning技術の紹介 •  ブームのきっかけ/強さの根拠/得意分野/今後の課題 •  PFNの考える将来のデータ解析 •  データ解析の困難性/解析の⾃自動化/エッジヘビーコンピューティング •  ライフサイエンス分野でのデータ活⽤用構想 •  分野特有の問題/これまでの取り組み/プラットフォーム構想 7
  8. 8. データ解析の典型的な流流れ 現象 ⽣生データ 整形データ 情報 価値 Sense Organize Analyze Action S3 ‘06/3 Simple DB ‘07/12 EBS ‘08/8 Glacier ‘12/8 RDS ‘09/10 Dynamo DB ‘09/10 Aurora ‘14/11 EMR ‘09/4 Red Shift ‘12/11 Kinesis ‘13/11 Storage Database Analytics 効⽤用 例例:AWS プレーヤーの 提供サービスは概ね データ解析の⾼高度度化 に沿っている 8
  9. 9. データの活⽤用⽅方法の⾼高度度化 → データそのものに価値を置く動き •  Data Citation Index(Reuter社) •  論論⽂文の被引⽤用回数のデータセット版 •  GIGADB •  公開データセットにDOIが付与 •  論論⽂文誌(Bioinformatics、PLoS One etc.) •  論論⽂文出版時に実験データの公開を義務づけ •  ライフサイエンス系企業 •  患者に検査を無償提供 •  検査結果を(匿匿名化し)製薬企業に販売 9
  10. 10. 機械学習とは? •  データにより賢くなるアルゴリズムの研究 •  広い意味での⼈人⼯工知能の⼀一つ 応⽤用 •  スパム判定/レコメンド * Dimensionality Reduction by Learning an Invariant Mapping Raia Hadsell, Sumit Chopra, Yann LeCun, CVPR, 2006 学習データ 分類モデル 10
  11. 11. 機械学習の典型的なプロセス 11 ⽂文書 (0,        1,  2.5,  -‐‑‒1,  …) (1,  0.5,      -‐‑‒2,    3,  …) (0,        1,  1.5,    2,  …) 特徴ベクトル グラフィカルモデル 分類/回帰 SVM/LogReg/PA/ CW/ALOW/Naïve   Bayes/CNB/DT/ RF/ANN… クラスタリング K-‐‑‒means/Spectral   Clustering/MMC/ LSI/LDA/GM… 構造分析 HMM/MRF/CRF…   画像 センサー ⾏行行動履履歴 分野に依存しない 抽象化データ 様々な⼿手法 理理論論を適⽤用 特徴 抽出 機械 学習 様々な様式の ⽣生データ
  12. 12. 12 分類結果の 根拠を可視化 訓練データ 管理理画⾯面
  13. 13. 機械学習を⽤用いてデータを⾃自動分類 -  ⼈人では判別できなかった重要な判断基準を機械学習で分析 -  データを⾃自動分類し、分析に活⽤用できるメタ情報を追加 様々な分類アルゴリズムや特徴抽出⼿手法を⽤用意 -  分類アルゴリズム:AROW, NHERD -  特徴抽出⼿手法:space, n-gram, mecab, mecab-n-gram 分類精度度の測定や分類理理由の確認が可能 -  交差検定ツールにより、適合率率率・再現率率率・F値の測定が可能 -  トレース機能により、特徴に対するスコアを可視化 13
  14. 14. 機械学習の産業応⽤用例例 農業向けセンサーネットワークサービスの実証実験* (住友精密⼯工業株式会社様、株式会社ブリスコラ様) •  みかん栽培のビニールハウスの 温度度管理理や空調設備の異異常検知 にJubatusを利利⽤用 •  空調設備の故障などによる、ハ ウス内の温度度変化を精度度⾼高く安 定的に検出するためのデータ活 ⽤用事例例 ⼤大分県の農家でのみかん栽培の様⼦子 *** その他のJubatus応⽤用事例例は Jubatus Casual Talks #3 ビジネス応⽤用編 で紹介されています** 14 * http://www.briscola.co.jp/media/press/pdf/ briscola_press_20140212.pdf ** http://blog.jubat.us/2014/07/jubatus-casual-talks-3.html *** http://itpro.nikkeibp.co.jp/article/NEWS/20140212/536349/
  15. 15. アジェンダ •  データ解析⽅方法としての機械学習 •  データ解析の流流れ/機械学習の実応⽤用例例 •  Deep Learning技術の紹介 •  ブームのきっかけ/強さの根拠/得意分野/今後の課題 •  PFNの考える将来のデータ解析 •  データ解析の困難性/解析の⾃自動化/エッジヘビーコンピューティング •  ライフサイエンス分野でのデータ活⽤用構想 •  分野特有の問題/これまでの取り組み/プラットフォーム構想 15
  16. 16. x1 xN ・・・・・・ h1 hH ・・・・ 典型的なNeural Network(多層パーセプトロン) kM k1 yM y1 f1 f2 f3 W2/b2 W1/b1 tM t1 損失関数で評価 正解ラベル⼊入⼒力力 Forward Backward 出⼒力力 ・・ ・・ ・・ 学習すべきパラメータ •  W1:1層⽬目のパラメータ⾏行行列列 •  b1:1層⽬目のバイアス項 •  W2:2層⽬目のパラメータ⾏行行列列 •  b2:2層⽬目のバイアス項 16 Forward更更新式 •  h = f1(x) = Sigmoid(W1x+b1) •  k = f2(h) = Sigmoid(W2h+b2) •  y = f3(k) = SoftMax(k) f3i(k) = exp(ki)/Σ_{j} exp(kj)
  17. 17. 機械学習の典型的なプロセス(再掲) 17 ⽂文書 (0,        1,  2.5,  -‐‑‒1,  …) (1,  0.5,      -‐‑‒2,    3,  …) (0,        1,  1.5,    2,  …) 特徴ベクトル グラフィカルモデル 分類/回帰 SVM/LogReg/PA/ CW/ALOW/Naïve   Bayes/CNB/DT/ RF/ANN… クラスタリング K-‐‑‒means/Spectral   Clustering/MMC/ LSI/LDA/GM… 構造分析 HMM/MRF/CRF…   画像 センサー ⾏行行動履履歴 分野に依存しない 抽象化データ 様々な⼿手法 理理論論を適⽤用 特徴 抽出 機械 学習 様々な様式の ⽣生データ
  18. 18. 特徴抽出は職⼈人技 •  特徴抽出の重要性 •  特徴の良良し悪しが学習精度度に⼤大きく影響 •  学習アルゴリズムの選択以上に精度度に効く場合も •  特徴抽出は難しい •  タスクごとに最適な特徴抽出⽅方法は異異なる •  機械学習コンテストは最後は特徴抽出のチューニング勝負 •  これまで様々な特徴抽出⽅方法が研究されてきた •  ⾃自然⾔言語:n-gram/BoW  画像:SIFT/SURF/HOG/PHOW/BoVW •  その他にも様々なヒューリスティックが存在 18
  19. 19. 19 2012年年画像認識識コンテストで Deep Learningを⽤用いたチームが優勝 → ILSVRC2012 優勝チームSupervisonの結果 [Krizhevsky+ ‘12] 以下の2点で衝撃的だった •  限界と思われた認識識エラー を4割も減らした (26%→16%) •  特徴抽出を⾏行行わず、⽣生の画 素をNNに与えた 翌年年の同コンテストの上位 チームはほぼDeep Learning
  20. 20. Neural Netブーム •  様々なコンペティションでDLが既存⼿手法を凌凌駕 •  16%(‘12) → 11%(‘13) → 6.6%(‘14) •  各企業がDL研究者の獲得競争 •  Google/FaceBook/Microsoft/Baidu •  実サービスもDLベースに置き換えられる •  Siri/Google画像検索索 GoogLeNetのアーキテクチャ↓ 20 Google Brainによる猫認識識↑ [Le+ ’13]
  21. 21. Deep Learningの強さの根拠(と⾔言われているもの) 概要 •  Neural Networkの構造 •  各パーツの改良良(ReLU/CNN/NiN) •  層の増加→階層的な構造が表現可能に •  深いNNを学習できるようになった •  1層ごとの学習 •  強⼒力力な正則化(DropOut/DAE) •  豊富なリソース •  計算リソース(GPGPU)と扱う技術 •  NN訓練に⼗十分な訓練データ 21
  22. 22. Deep Learningの強さの根拠(と⾔言われているもの) (1/3) Neural Networkの構造 •  各層の構造 •  ReLU[Nair+ ‘10] •  CNN [LeCun+ ‘89] •  Network in Network[Lin+ ‘13] •  MaxOut •  多層化による効果 •  単純特徴の組合せで複雑な特徴 を実現 •  “Disentangling” [GoodFellow +’09][Bengio ‘14] ↑SigmoidとReLU ↓[Bengio ’14] 22
  23. 23. Deep Learningの強さの根拠(と⾔言われているもの) (2/3) Neural Networkの訓練⽅方法 •  Layerwise Pretrain[Bengio+’07] •  Auto-Encoderの利利⽤用 •  確率率率的勾配法(SGD)とその派⽣生 •  AdaGrad[Duchi+ ‘11] •  Nesterov’s Method/RMSProp … •  強⼒力力な正則化 •  DropOut[Hinton+ ‘12] •  Denoising Auto-Encoder ↑[岡⾕谷 IBIS’13] ↓[Srivastava+’14] ↑典型的なSGD更更新式 23
  24. 24. •  計算リソースとそれを扱う技術 •  GPGPUの普及 •  分散機械学習 (例例:DistBelief) •  訓練に⼗十分なデータ •  ImageNet:1400万枚の画像 •  Sports1M:100万本の動画 ↑DistBelief[Jeffrey+’12] ↑ImageNet [Deng+ ’09] ↑[Karpathy+ ‘14]24 Deep Learningの強さの根拠(と⾔言われているもの) (3/3) 豊富なリソース
  25. 25. Deep Learningの得意分野 (1/3) マルチタスク学習:知識識を共有して複数問題を同時に解く 複数の問題でNNの中間層を共有 ↓ 問題に共通する有⽤用な特徴を学習 •  応⽤用:GWAS[Puniyani+’10], PheWAS 問題固有の特徴を上層で学習 x 1 x N h 1 h H k M k 1 y M y 1 k M k 1 y M y 1 k M k 1 y M y 1 25 タスク 1 タスク 2 タスク 3
  26. 26. マルチタスク学習の威⼒力力: 定量量的構造活性相関(QSAR)での成功 * http://blog.kaggle.com/2012/10/31/merck- competition-results-deep-nn-and-gpus-come-out-to-play/ •  19アッセイでの化合物の活性を Deep NNを⽤用いて同時に予測、こ れまでの予測精度度を超える結果を 得る[Dahl+’14] •  ほぼ同様の⼿手法で同研究Gr. が Merck 主催の化合物活性予測のコ ンペティションで優勝* * Fig. 2 より引⽤用 26
  27. 27. Deep Learningの得意分野 (2/3) マルチモーダル学習:複数種類データの統合による精度度向上 •  様々なメディア(映像・⾳音声・⽂文書)を 統合する技術として近年年注⽬目を集める •  ⼊入⼒力力例例 テキスト + ⾳音声 / テキスト + 画像 遺伝⼦子発現 + ゲノムシーケンス 27 x 1 x N x 1 x N h 1 h H k M k 1 y M y 1 x 1 x N [Jefferey+’14]
  28. 28. Deep Learningの得意分野 (3/3) 特徴の⾃自動抽出・分散表現 •  単語ペアの類似度度推定タスク [Kiela+‘14] •  各単語を2つのベクトルで表現(単語の分散表現+単語に紐紐づく画像の分散表現) •  画像の分散表現にはCNN の中間層の出⼒力力を利利⽤用 •  類似度度推定が単語の分散 表現単独の場合よりも⼈人 ⼿手の結果に近づいた 28
  29. 29. Deep Learning技術の課題・概要 •  理理論論解析が未整備 •  定⽯石といえるものがない •  経験的に良良いとされる常識識が覆る •  設計の⾃自由度度が⾼高い → チューニングが困難 •  特徴抽出職⼈人がNN設計職⼈人に変わっただけ? 29 GoogLeNetのprototxt 2000⾏行行以上ある↓ ILSVRC’14 GoogLeNet↓
  30. 30. 30 Deep Learning技術の課題 (1/2) 理理論論解析が未整備 •  理理論論解析の定⽯石と⾔言える⼿手法がまだない •  例例:DNNの⽬目的関数最適化の収束を証明ができたケースはレア •  経験的に良良いとされる定説が覆る •  Pretrainは不不要説/⼤大量量訓練データは不不要説/計算リソースは不不要説 •  SGDによる最適化は鞍点に嵌っている  [Dauphin+’14] •  “Do Deep Nets Really Need to be Deep?” [Ba+’13] → ILSVRC’14 GoogLeNet スライド
  31. 31. Deep Learning技術の課題 (2/2) 設計の⾃自由度度が⾼高い = チューニングが難しい •  設計時の選択肢:NNの設計は回路路設計に近い •  ネットワーク(トポロジー/Layer数/Node数/活性化関数/損失関数) •  学習⽅方法(学習アルゴリズム/Iteration数/学習率率率関連) •  チューニングパラメータが精度度に⼤大きく影響を与える •  ReLUで少し学習率率率を変えただけで損失がInfになる •  アルゴリズムの改善よりもパラメータ探索索が重要になることも •  NNに対するDSL, クエリ⾔言語の必要性? GoogLeNetのprototxt (Caffeの設定ファイル) 2000⾏行行以上ある→ https://github.com/BVLC/caffe/pull/1367/files31
  32. 32. Deep Learningの最近の話題 •  マルチモーダルデータへの適⽤用 •  画像のキャプションを⾃自動⽣生成[Vinyal+ to appear] •  Recurrent NN, LSTMを⽤用いた可変⻑⾧長データの解析 •  機械翻訳[Sutskever+’14], 動画[Karpathy+ ‘14] •  DNNの同等の性能をShallow NNで実現する •  Model Compression[Bucilua+’06] / Distilled Networkによる Dark Knowledgeの獲得[Hinton+’14] •  理理論論計算機科学者がDeep Learningの理理論論解析へ進出 •  Layerwise Pretrainの正当化  [Arora+’13] •  Deep (Directed) Generative Model •  Generative Stochastic Network[Bengio+’13], Generative Variational Auto-Encoder[Kingma+’13] どのトピックも詳しく話すと 本講演1回分の内容です… 32
  33. 33. Deep Learning関連資料料 33 弊社メンバーもUstream / Slideshare / Research Blog などで資料料を公開しています http://www.slideshare.net/pfi/deep-learning-22350063 http://www.slideshare.net/beam2d/deep-learning20140130 http://www.slideshare.net/beam2d/deep-learning-22544096
  34. 34. アジェンダ •  データ解析⽅方法としての機械学習 •  データ解析の流流れ/機械学習の実応⽤用例例 •  Deep Learning技術の紹介 •  ブームのきっかけ/強さの根拠/得意分野/今後の課題 •  PFNの考える将来のデータ解析 •  データ解析の困難性/解析の⾃自動化/エッジヘビーコンピューティング •  ライフサイエンス分野でのデータ活⽤用構想 •  分野特有の問題/これまでの取り組み/プラットフォーム構想 34
  35. 35. 35 データ解析の典型的な流流れ(再掲) 現象 ⽣生データ 整形データ 情報 価値 Sense Organize Analyze Action S3 ‘06/3 Simple DB ‘07/12 EBS ‘08/8 Glacier ‘12/8 RDS ‘09/10 Dynamo DB ‘09/10 Aurora ‘14/11 EMR ‘09/4 Red Shift ‘12/11 Kinesis ‘13/11 Storage Database Analytics 効⽤用 例例:AWS プレーヤーの 提供サービスは概ね データ解析の⾼高度度化 に沿っている
  36. 36. データ解析の各ステップで壁がある 現象 ⽣生データ 整形データ 情報 価値 Sense Organize Analyze Action 効⽤用 データが集められない ⼈人⼿手での解析が ボトルネック 解析できる ⼈人材がいない 解析結果が経営の⾔言葉葉 に翻訳されていない 計測機器データが そのまま廃棄される データを機関外に 出したくない データ前処理理が⾟辛い データ粒粒度度が不不適切切 36
  37. 37. データ解析の壁 (1/3) データを集約するアプローチの困難性 37
  38. 38. データ解析の壁 (2/3) データ解析者への要件の多様化 l  いわゆる「データサイエンティスト」に必要なスキル l  データ解析:確率率率統計学/数学/プログラミング/ドメイン知識識 l  経営判断への活⽤用の期待:コミュニケーション能⼒力力/経営学 l  ⼤大量量データの扱い:分散システム/ネットワーク/データベース 詳しくは弊社の PFI内部セミナー (Ustream) をご覧下さい↓→ 38 http://www.slideshare.net/shoheihido/120913-pfi-dist http://www.slideshare.net/shoheihido/130328-slideshare http://www.slideshare.net/shoheihido/ss-25510340
  39. 39. データ解析の壁 (3/3) データ解析者と意思決定者の間のギャップ •  「有意差が出てXXXとわかりました」 →「なるほど、それで我が社は儲かる?」 •  「有意差が出てXXXとわかりました」 →「そんな事は経験的に知っている」 •  データインタープリタの必要性などが⾔言われている •  情報部⾨門に経営の視点を持つ⼈人を要請する? •  経営企画部が統計の知識識を得る? 39
  40. 40. エッジヘビーコンピューティング[丸⼭山+ʼ’12] データをネットワークの縁上で処理理する •  クラウドの中央集権型の処理理から、エッジ側での協調処理理へと向かう 40
  41. 41. データ解析は全て⾃自動化されていなければならない 41 Unify  &  Generalize Sensing  ,  Organize,  Analyze,  Action •  Security •  Privacy •  Heterogeneity •  Distributed  Intelligence
  42. 42. 分散インテリジェンスに関する経済予測 CiscoとGEの試算 Cisco : Internet of Everything(IoE) IoEは⺠民間セクターにおいて今後10年年間で14 兆4000億ドルの機会の創出をもたらす l  試算の活⽤用/社員の⽣生産性向上/サ プライチェーン、ロジスティクスの 改善/カスタマーエクスペリエンス の向上/市場への投⼊入の時間短縮 l  ⽇日本での創出は7610億円(約5%) l  医療療・ライフサイエンス分野では 2013年年において990億ドルの価値 が最終的に創出される 42 - White Paper Embracing the Internet of Everything To Capture Your Share of $14.4 Trillion - Industrial Internet: Pushing the Boundaries of Minds and Machines - The Industrial Internet@Work GE : Industrial Internet Industrial Internetにより、世界のGDPは今 後20年年で100兆から150兆ドル成⻑⾧長する •  インテリジェントな機器/⾼高度度な分析/ つながった⼈人々 •  輸送/⽯石油・ガス/発電プラント/産業 施設/医療療機器 •  医療療での例例:CT、MRIメンテナンスコス トは400万時間/年年、2億5000万ドルの ⼈人件費に相当
  43. 43. アジェンダ •  データ解析⽅方法としての機械学習 •  データ解析の流流れ/機械学習の実応⽤用例例 •  Deep Learning技術の紹介 •  ブームのきっかけ/強さの根拠/得意分野/今後の課題 •  PFNの考える将来のデータ解析 •  データ解析の困難性/解析の⾃自動化/エッジヘビーコンピューティング •  ライフサイエンス分野でのデータ活⽤用構想 •  分野特有の問題/これまでの取り組み/プラットフォーム構想 43
  44. 44. ライフサイエンスにおけるデータ統合の必要性 •  疾患解析には異異なる種類のデータ間の関連・相関を調べる必要がある •  バイオマーカーの探索索、遺伝⼦子診断 •  ⽣生命現象の複雑性:単⼀一のデータソースを⾒見見ても現象の全容を把握できな いことがある •  遺伝要因(ゲノム、インプリンティング、エピゲノム、遺伝⼦子発現) •  ⾝身体的要因(⾝身⻑⾧長、体重、年年齢) •  ⽣生活習慣要因(飲酒・喫煙の有無、運動の有無) •  環境要因(出⾝身地・幼少の⽣生活環境・居住環境) 先天的・遺伝性 後天的・⽣生活習慣 II型糖尿尿病など出⽣生前診断 予防医療療 44
  45. 45. ライフサイエンスデータのOrganize プロジェクト例例(1/2) 遺伝⼦子・転写物検索索 GGRNA “Google-like full text search engine” •  ライフサイエンス統合データベースセンター(DBCLS)・ 内藤雄樹助教との共同研究 •  NCBIのRefSeqデータの全⽂文検索索が可能 •  ヒト、マウス、酵⺟母菌など13種を横断検索索(“Zoo”) •  曖昧検索索、メタデータの検索索にも対応 •  弊社全⽂文検索索エンジン「Sedue」 をバックエンドとして採⽤用 •  Nucl.AcidsRes.2012にて論論⽂文発表 [Naito+’12] 45
  46. 46. ライフサイエンスデータのOrganize プロジェクト例例(2/2):GGGenome •  ゲノム配列列の⾼高速曖昧検索索サービス •  DDBJ Release 92.0の全塩基配列列を曖昧検索索可能 •  ヒト(hg19)、マウス(mm10)など12種類 •  ディベロッパー向けRESTful APIを提供 •  弊社開発の曖昧検索索エンジンをバックエンドとして採⽤用 ACGTGATC ACTAATC 削除置換 d (ACGTGATC, ACTAATC) = 3
  47. 47. GGRNA/GGGenome稼働実績 [マシンスペック] 2Uサーバー1台(CPU 6コア×2 3.46GHz/メモリ192GB) GGGenome バージョン 塩基配列列 インデックス RefSeq 61 8.6GB 52.4GB DDBJ 92.0 150.8GB 932.2GB ヒトゲノム hg19 3.1GB 19.0GB GGRNA バージョン 全⽂文書 インデックス RefSeq 61 32.4GB 210.3GB DDBJ(未公開) 92.0 559.2GB 3192.8GB [データサイズ] 47
  48. 48. 48 構想:マルチタスク・マルチモーダル学習による ヘテロジニアスなデータの横断的活⽤用の実現 遺伝⼦子発現 データ シーケンス データ 化合物 データ 疾患 データ 表現型 予測 ⽅方策 推薦 診断 助⾔言 SQL R&D 創薬 ヘルスケア医療療 x 1 x N x 1 x N h 1 h H k M k 1 y M y 1 k M k 1 y M y 1 利利⽤用 解析プラットフォーム
  49. 49. 49 エッジヘビーコンピューティングとの関係 遺伝⼦子発現 データ シーケンス データ 化合物 データ 疾患 データ 表現型 予測 ⽅方策 推薦 診断 助⾔言 SQL R&D 創薬 ヘルスケア医療療 利利⽤用 解析プラットフォーム 巨⼤大な中間層 クラウド側 (将来はエッジ側に) DB+⼊入⼒力力層 エッジ側(プラガブル)
  50. 50. 50 ライフサイエンス分野でのデータ活⽤用の問題 まだまだ⼭山積み データ流流通の未整備 •  「データの⽣生成者」≠「解析による受益者」→  利利害の不不⼀一致 データ収集の壁 •  「実験データ解析コスト」<「実験データ作成コスト」 •  難病疾患の治験での症例例/基礎研究の実験データ •  1カ所に集められない(技術的・法律律的) •  病院内の電⼦子カルテ情報/製薬会社の化合物ライブラリ •  最近はデータをオープン・共有する動きもある 擬陽性が許されない •  1件でもエラーがでたら損害賠償  →  機械学習には不不向き
  51. 51. まとめ •  データ解析の典型的な流流れ:Sense, Organize, Analyze, Action •  データを⾼高度度に活⽤用する⼿手段として機械学習が注⽬目を集めています •  特徴抽出の⾃自動化・タスク精度度の⾶飛躍的向上などによりこの数年年Deep Learning技術が様々な領領域に適⽤用されています •  データ解析の様々な壁を超える⽅方法として、データ解析の全⾃自動化、 エッジヘビーコンピューティングなどの⽅方法が考えられています •  ライフサイエンス現象の解析にはデータを統合的な解析が必要です。 それを実現するためのプラットフォームを提案しました 51
  52. 52. 参考⽂文献(1/5) [Arora+’13] Arora, Sanjeev, et al. "Provable bounds for learning some deep representations." arXiv preprint arXiv:1310.6343 (2013). [Ba+’13] Ba, Lei Jimmy, and Rich Caurana. "Do Deep Nets Really Need to be Deep?." arXiv preprint arXiv: 1312.6184 (2013). [Bengio+’07] Bengio, Yoshua, et al. "Greedy layer-wise training of deep networks." Advances in neural information processing systems 19 (2007): 153. [Bengio+’13] Bengio, Yoshua, and Eric Thibodeau-Laufer. "Deep generative stochastic networks trainable by backprop." arXiv preprint arXiv:1306.1091 (2013). [Bengio’14] Bengio, Yoshua. "How auto-encoders could provide credit assignment in deep networks via target propagation." arXiv preprint arXiv:1407.7906 (2014). [Bucilua+’06] Buciluǎ, Cristian, Rich Caruana, and Alexandru Niculescu-Mizil. "Model compression." Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2006. 52
  53. 53. 参考⽂文献(2/5) [Dahl+’14] Dahl, George E., Navdeep Jaitly, and Ruslan Salakhutdinov. "Multi-task Neural Networks for QSAR Predictions." arXiv preprint arXiv:1406.1231 (2014). [Dauphin+’14] Dauphin, Yann N., et al. "Identifying and attacking the saddle point problem in high- dimensional non-convex optimization." Advances in Neural Information Processing Systems. 2014. [Duchi+’11] Duchi, John, Elad Hazan, and Yoram Singer. "Adaptive subgradient methods for online learning and stochastic optimization." The Journal of Machine Learning Research 12 (2011): 2121-2159. [Deng+’09] Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009. [GoodFellow+’09] Goodfellow, Ian, et al. "Measuring invariances in deep networks." Advances in neural information processing systems. 2009. [Hinton+’12] Hinton, Geoffrey E., et al. "Improving neural networks by preventing co-adaptation of feature detectors." arXiv preprint arXiv:1207.0580 (2012). 53
  54. 54. 参考⽂文献(3/5) [Hinton+’14] Geoffrey Hinton, Oriol Vinyals, Jeff Dean, Distilling the Knowledge in a Neural Network, Deep Learning and Representation Learning Workshop: NIPS 2014 [Jeffrey+’12] Dean, Jeffrey, et al. "Large scale distributed deep networks." Advances in Neural Information Processing Systems. 2012. [Jeffrey+’14] Large Scale Deep Learning CIKM keynote, 2014, http://static.googleusercontent.com/ media/research.google.com/ja//people/jeff/CIKM-keynote-Nov2014.pdf [Karpathy+ ’14] Karpathy, Andrej, et al. "Large-scale video classification with convolutional neural networks." IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2014. [Kingma+’13] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [Klela+’14] Learning Image Embeddings using Convolutional Neural Networks for Improved Multi-Modal Semantics, D. Kiela and Leon Bottou EMNLP 2014 54
  55. 55. 参考⽂文献(4/5) [Krizhevsky+ ’12] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012. [Le+’13] Le, Quoc V. "Building high-level features using large scale unsupervised learning." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013. [LeCun+ ’89] Yann LeCun, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne Hubbard, Lawrence D Jackel, Backpropagation applied to handwritten zip code recognition, Advances in neural information processing systems 2, NIPS 1989, 396-404 [Lin+’13] Lin, Min, Qiang Chen, and Shuicheng Yan. "Network In Network." arXiv preprint arXiv:1312.4400 (2013). [Nair+ ’10] Nair, Vinod, and Geoffrey E. Hinton. "Rectified linear units improve restricted boltzmann machines." Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010. [Naito+’12] Yuki Naito and Hidemasa Bono, GGRNA: an ultrafast, transcript-oriented search engine for genes and transcripts, Nucl. Acids Res. (2012) 40(W1):W592-W596 55
  56. 56. 参考⽂文献(5/5) [Puniyani+’10] K. Puniyani, S. Kim, and E. P. Xing, “Multi-population GWA mapping via multi-task regularized regression,” Bioinformatics, vol. 26, no. 12, pp. i208-i216, Jun. 2010 [Srivastava+’14] Srivastava, Nitish, et al. "Dropout: A simple way to prevent neural networks from overfitting." The Journal of Machine Learning Research 15.1 (2014): 1929-1958. [Sutskever+’14] Sutskever, Ilya, Oriol Vinyals, and Quoc VV Le. "Sequence to sequence learning with neural networks." Advances in Neural Information Processing Systems. 2014. [岡⾕谷ʼ’13] 岡⾕谷貴之, 画像認識識分野でのディープラーニングの研究動向, 第16回情報論論的学習理理論論ワークショップ (IBIS2013) [丸⼭山+’12] 丸⼭山宏, 岡野原⼤大輔  Edge-Heavy Data: CPS・ビッグデータ・クラウド・スマホがもたらす次世代 アーキテクチャ  GICTF総会  特別講演  2012, http://www.gictf.jp/doc/20120709GICTF.pdf 56
  57. 57. Copyright  ©  2014-‐‑‒ Preferred  Networks  All  Right  Reserved.
  58. 58. 補⾜足資料料
  59. 59. Deep Learningを⽤用いた⾏行行動解析デモ(1/2) (キャプション無し) 59
  60. 60. Deep Learningを⽤用いた⾏行行動解析デモ(2/2) (キャプション無し) 60
  61. 61. (キャプション無し) 61
  62. 62. 略略語⼀一覧 Deep Learning関連 •  DL : Deep Learning •  NN : Neural Network •  DNN : Deep Neural Network •  CNN : Convolutional Neural Network •  RNN : Recurrent Neural Network •  LSTM : Long Short-Term Memory •  ReLU : Rectified Linear Unit •  NiN:Network in Network •  AE:Auto-Encoder •  DAE:Denoising Auto-Encoder ライフサイエンス関連 •  GWAS : Genome-Wide Association Study •  PheWAS : Phenome-Wide Association Study •  QSAR : Quantitative Structure–Activity Relationship 画像解析関連 •  BoVW : Bug of Visual Word •  SIFT : Scale-Invariant Feature Transform •  SURF : Speeded Up Robust Features •  HOG : Histogram of Oriented Gradients •  PHOW : Pyramid Histogram Of visual Words
  63. 63. 63 ⽤用語解説(1/3):アーキテクチャ関連 •  Net:Neural Net(NN)のアーキテクチャ全体 •  Node = Neuron、Unit •  Nodeの集まりを(ややこしいが)○○層とも⾔言う •  Layer:異異なる階層のNodeをつなぐモジュール x 1 x N h 1 h H k M k 1 y M y 1 t M t 1 Forward Backward Net Node Layer
  64. 64. ⽤用語解説(2/3):Layerに関する注意 •  論論⽂文ではNodeの中で活性化関数を含む事が多いが、実装では活性化関 数をLayerで実現することが多い Y=σ(WX) W X X WX Y W σ 64
  65. 65. minibatch j ⽤用語解説(3/3) :訓練関連 Epoch 1 Epoch N Epoch 2 Epoch i Epoch i 全訓練データを シャッフル minibatch 1 訓練データ 2 minibatch 2 minibatch M minibatch j 訓練データ 1 訓練データ B パラメータ更更新 時刻 •  Epoch (Iteration):全訓練データを1巡する事 → 各訓練データはNetにN回与える •  Solver:Netを訓練するモジュール •  minibatch:少数の訓練データをまとめてNNに 与えた後にパラメータ更更新 65
  66. 66. Deep Learningの歴史(1/3) •  Perceptron [Rosenblatt‘58] •  「Perceptrons」でのPerceptron批判 [Minsky+ ‘69] •  Back Propagation [Bryson+ ‘69] •  BPのNNへの適⽤用  [Werbos‘74] •  Neocognitron[Fukushima‘80] / Hopfield Network[Hopfield’82] / PDP model[Rumelhart+ ‘86] / Gradient Descent[Rumelhart+ ‘86] [McClelland+’86] 1960 1970 1980 1990 第1次NNブーム AI冬の時代 第2次NNブーム AI冬の時代 66
  67. 67. Deep Learningの歴史(2/3) •  Bayesian Network [Pearl‘85] Support Vector Machine [Corinna, Vapnik’95] •  SVM・Boostingに押されてNNは冬の時代 •  過学習の問題 / “Vanishing Gradient Problem”[Hochreiter’91] •  この時代に次のブームの要素技術は開発されていた •  RBM[Smolensky’86]/CNN[LeCun’89]/ RNN[Jordan’86, Elman‘90]/ LSTM[Hochreiter+ ‘97] •  Greedy Layerwise Pretrain[Bengio+’07] •  Deep Belief Network[Hinton+’06] •  Deep Bolzmann Machine[Salakhutdinov+’09] 1990 2000 機械学習の流流⾏行行 NN冬の時代 深層化技術の ブレイクスルー 67
  68. 68. Deep Learningの歴史(3/3) •  ILSVRCでSupervision[Krizhevsky+ 2012]が優勝 •  Google Brain[Le, Ng, Jeffrey+ 2012] → 現在まで続くDeep Learningブームの始まり •  各企業がDL研究者の獲得競争 •  GoogLeNet[Szegedy+ 2014] 2010 第3次NNブーム 2014 68
  69. 69. ライフサイエンスデータ解析の壁(1/2) •  Senseの壁:プライベート性 •  製薬企業の化合物データは企業秘密 •  ゲノムデータは究極の個⼈人情報 •  Organizeの壁:データの散財 •  研究成果のデータベースが乱⽴立立している •  病院間でカルテが共有されておらず、同じ検査を別病院で実施 •  各研究所がデータを独⾃自で貯めている 69
  70. 70. ライフサイエンスデータ解析の壁(2/2) •  Organizeの壁:データのヘテロジニアス性 •  種類がバラバラ:テキスト/画像/センサー •  ⽤用途がバラバラ:基礎研究/予防/医療療/ヘルスケア •  データ量量がバラバラ:難病治験と1000⼈人ゲノムプロジェクト •  Analyzeの壁:リアルタイム性 •  副作⽤用:この薬を飲んではいけません/この薬を処⽅方してはいけません •  緊急医療療:⽬目の前の患者を助けるのに夜間バッチを待っていられない •  遺伝⼦子発現量量:遺伝⼦子は静的でも、発現量量は動的に変化する 70
  71. 71. 参考⽂文献(1/4) [Bengio+’07] Bengio, Yoshua, et al. "Greedy layer-wise training of deep networks." Advances in neural information processing systems 19 (2007): 153. [Bryson+’69] Bryson, Arthur E., and Ho Yu Chi. "Applied optimal control." (1969). [Cortes+’95] Cortes, Corinna, and Vladimir Vapnik. "Support-vector networks." Machine learning 20.3 (1995): 273-297. [Elman+’90] Elman, Jeffrey L. "Finding structure in time." Cognitive science 14.2 (1990): 179-211. [Fukushima’80] Fukushima, Kunihiko. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Biological cybernetics 36.4 (1980): 193-202. [Hinton+’06] Hinton, Geoffrey, Simon Osindero, and Yee-Whye Teh. "A fast learning algorithm for deep belief nets." Neural computation 18.7 (2006): 1527-1554. [Hochreiter’91] Hochreiter, Sepp. "Untersuchungen zu dynamischen neuronalen Netzen." Master's thesis, Institut fur Informatik, Technische Universitat, Munchen (1991). 71
  72. 72. 参考⽂文献(2/4) [Hochreiter+’97] Hochreiter, Sepp, J. urgen Schmidhuber, and Corso Elvezia. "LONG SHORT-TERM MEMORY." Neural Computation 9.8 (1997): 1735-1780. [Hopfield’82] Hopfield, John J. "Neural networks and physical systems with emergent collective computational abilities." Proceedings of the national academy of sciences 79.8 (1982): 2554-2558. [Jordan’86] Jordan, Michael I. Serial Order: A Parallel Distributed Processing Approach. No. ICS-8604. CALIFORNIA UNIV SAN DIEGO LA JOLLA INST FOR COGNITIVE SCIENCE, 1986. [LeCun+ ’89] Yann LeCun, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne Hubbard, Lawrence D Jackel, Backpropagation applied to handwritten zip code recognition, Advances in neural information processing systems 2, NIPS 1989, 396-404,  [Krizhevsky+ ’12]  Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012. 72
  73. 73. 参考⽂文献(3/4) [Le+’13] Le, Quoc V. "Building high-level features using large scale unsupervised learning." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013. [McClelland+’86] McClelland, James L., David E. Rumelhart, and PDP Research Group. "Parallel distributed processing." Explorations in the microstructure of cognition 2 (1986). [Minsky+’69] Minsky, Marvin, and Seymour Papert. "Perceptron: an introduction to computational geometry." The MIT Press, Cambridge, expanded edition 19 (1969): 88. [Pearl’85] Pearl, Judea. "BAYESIAN NETWCRKS: A MODEL CF ‘SELF-ACTIVATED MEMORY FOR EVIDENTIAL REASONING." (1985). [Rosenblatt’58] Rosenblatt, Frank. "The perceptron: a probabilistic model for information storage and organization in the brain." Psychological review 65.6 (1958): 386. [Rumelhart+’86] Rumelhart, David E., James L. McClelland, and PDP Research Group. "Parallel distributed processing, volume 1: Foundations." MIT Press, Cambridge, MA 19 (1986): 67-70. 73
  74. 74. 参考⽂文献(4/4) [Salakhutdinov+’09] Salakhutdinov, Ruslan, and Geoffrey E. Hinton. "Deep boltzmann machines." International Conference on Artificial Intelligence and Statistics. 2009. [Smolensky’86], Smolensky, Paul. "Information processing in dynamical systems: Foundations of harmony theory." (1986): 194. [Szegedy+’14], Szegedy, Christian, et al. "Going deeper with convolutions." arXiv preprint arXiv: 1409.4842 (2014). [Werbos’74] Werbos, Paul. "Beyond regression: New tools for prediction and analysis in the behavioral sciences." (1974). 74
  75. 75. Copyright  ©  2014-‐‑‒ Preferred  Networks  All  Right  Reserved.

×