Deep Learning技術の最近の動向とPreferred Networksの取り組み

Deep Learning技術の最近の動向
とPreferred Networksの取り組み
2014/12/9
株式会社 Preferred Networks
⼤大野健太 <oono@preferred.jp>
第21回先端的データベースとWeb技術動向講演会
ACM SIGMOD ⽇日本⽀支部第58回⽀支部⼤大会
@東京⼤大学⽣生産技術研究所

⾃自⼰己紹介
•  ⼤大野健太(@delta2323_)
•  経歴：数理理科学研究科・修⼠士課程（共形幾何）
•  → 2012.3 PFI
•  → 2014.10 PFN
•  所属：研究班（担当領領域：理理論論解析・ライフサイエンス）
•  ブログ：http://delta2323.github.io
2

株式会社Preferred Networks
Preferred Infrastructure（PFI、2006年年創業）
l  検索索・機械学習のソフトウェア研究開発
Preferred Networks（PFN、2014年年設⽴立立）
l  IoTにフォーカスするためスピンオフ
l  ディープラーニング等最新技術を開発
l  様々な業界向けソリューションを加速
l  製造業、交通、セキュリティ、⼩小売…
代表取締役
⻄西川徹
取締役副社⻑⾧長
岡野原⼤大輔
機械学習
ディープラーニング
（深層学習）
検索索エンジン
／
分析ソフト
3

様々な分野への技術適⽤用のための連携
•  ⽇日本電信電話株式会社(NTT)様と
Deep Learningなどの次世代データ
解析技術開発を⽬目的とした資本・業
務提携契約締結
•  トヨタ⾃自動⾞車車社様と⾃自動運転技術研
究開発を⽬目的とした共同研究開発契
約締結
•  (PFI) 京都⼤大学iPS細胞研究所
(CiRA)様とiPS細胞機能メカニズム
の解明・次世代シーケンサーデータ
の解析における機械学習技術の応⽤用
を⽬目的とした共同研究契約締結 http://blogs.wsj.com/japanrealtime/
2014/10/01/ntt-toyota-seek-deep-learning-
expertise/
↓ WSJ 2014/10/1

Deep Learningを⽤用いた⾏行行動解析デモ(1/2)
5
位置推定+⼈人物追跡
⼈人物検出
属性推定
・向き(8⽅方向)
・性別(男⼥女女)
・帽⼦子(有無)
属性推定にDeep Learning
を⽤用いた分類器を利利⽤用

6
Intel様ブース内で出展
ITPRO EXPO AWARD 2014優秀賞を受賞
位置・属性推定結果
をUIで可視化
エリアごとに属性の
割合・頻度度を表⽰示
男⼥女女⽐比スタッフの割合
年年齢構成ジャケット
着⽤用の割合
⼈人物追跡
ファンネル解析

アジェンダ
•  データ解析⽅方法としての機械学習
•  データ解析の流流れ／機械学習の実応⽤用例例
•  Deep Learning技術の紹介
•  ブームのきっかけ／強さの根拠／得意分野／今後の課題
•  PFNの考える将来のデータ解析
•  データ解析の困難性／解析の⾃自動化／エッジヘビーコンピューティング
•  ライフサイエンス分野でのデータ活⽤用構想
•  分野特有の問題／これまでの取り組み／プラットフォーム構想
7

データ解析の典型的な流流れ
現象
⽣生データ
整形データ
情報
価値
Sense
Organize
Analyze
Action
S3
‘06/3
Simple DB
‘07/12
EBS
‘08/8
Glacier
‘12/8
RDS
‘09/10
Dynamo DB
‘09/10
Aurora
‘14/11
EMR
‘09/4
Red Shift
‘12/11
Kinesis
‘13/11
Storage
Database
Analytics
効⽤用
例例：AWS
プレーヤーの
提供サービスは概ね
データ解析の⾼高度度化
に沿っている
8

データの活⽤用⽅方法の⾼高度度化
→ データそのものに価値を置く動き
•  Data Citation Index(Reuter社)
•  論論⽂文の被引⽤用回数のデータセット版
•  GIGADB
•  公開データセットにDOIが付与
•  論論⽂文誌（Bioinformatics、PLoS One etc.）
•  論論⽂文出版時に実験データの公開を義務づけ
•  ライフサイエンス系企業
•  患者に検査を無償提供
•  検査結果を（匿匿名化し）製薬企業に販売
9

機械学習とは？
•  データにより賢くなるアルゴリズムの研究
•  広い意味での⼈人⼯工知能の⼀一つ
応⽤用
•  スパム判定／レコメンド
* Dimensionality Reduction by Learning an Invariant Mapping
Raia Hadsell, Sumit Chopra, Yann LeCun, CVPR, 2006
学習データ
分類モデル
10

機械学習の典型的なプロセス
11
⽂文書
(0, 1, 2.5, -‐‑‒1, …)
(1, 0.5, -‐‑‒2, 3, …)
(0, 1, 1.5, 2, …)
特徴ベクトル
グラフィカルモデル
分類/回帰
SVM/LogReg/PA/
CW/ALOW/Naïve
Bayes/CNB/DT/
RF/ANN…
クラスタリング
K-‐‑‒means/Spectral
Clustering/MMC/
LSI/LDA/GM…
構造分析
HMM/MRF/CRF…
画像センサー
⾏行行動履履歴
分野に依存しない
抽象化データ
様々な⼿手法
理理論論を適⽤用
特徴
抽出
機械
学習
様々な様式の
⽣生データ

12
分類結果の
根拠を可視化
訓練データ
管理理画⾯面

機械学習を⽤用いてデータを⾃自動分類
-  ⼈人では判別できなかった重要な判断基準を機械学習で分析
-  データを⾃自動分類し、分析に活⽤用できるメタ情報を追加
様々な分類アルゴリズムや特徴抽出⼿手法を⽤用意
-  分類アルゴリズム：AROW, NHERD
-  特徴抽出⼿手法：space, n-gram, mecab, mecab-n-gram
分類精度度の測定や分類理理由の確認が可能
-  交差検定ツールにより、適合率率率・再現率率率・F値の測定が可能
-  トレース機能により、特徴に対するスコアを可視化
13

機械学習の産業応⽤用例例
農業向けセンサーネットワークサービスの実証実験*
（住友精密⼯工業株式会社様、株式会社ブリスコラ様）
•  みかん栽培のビニールハウスの
温度度管理理や空調設備の異異常検知
にJubatusを利利⽤用
•  空調設備の故障などによる、ハ
ウス内の温度度変化を精度度⾼高く安
定的に検出するためのデータ活
⽤用事例例
⼤大分県の農家でのみかん栽培の様⼦子 ***
その他のJubatus応⽤用事例例は
Jubatus Casual Talks #3 ビジネス応⽤用編
で紹介されています**
14
* http://www.briscola.co.jp/media/press/pdf/
briscola_press_20140212.pdf
** http://blog.jubat.us/2014/07/jubatus-casual-talks-3.html
*** http://itpro.nikkeibp.co.jp/article/NEWS/20140212/536349/

アジェンダ
15

x1
xN
・・・・・・
h1
hH
・・・・
典型的なNeural Network（多層パーセプトロン）
kM
k1
yM
y1
f1
f2
f3
W2/b2
W1/b1
tM
t1
損失関数で評価
正解ラベル⼊入⼒力力
Forward
Backward
出⼒力力
・・
・・
・・
学習すべきパラメータ
•  W1:1層⽬目のパラメータ⾏行行列列
•  b1:1層⽬目のバイアス項
•  W2:2層⽬目のパラメータ⾏行行列列
•  b2:2層⽬目のバイアス項
16
Forward更更新式
•  h = f1(x) = Sigmoid(W1x+b1)
•  k = f2(h) = Sigmoid(W2h+b2)
•  y = f3(k) = SoftMax(k)
f3i(k) = exp(ki)/Σ_{j} exp(kj)

機械学習の典型的なプロセス（再掲）
17
⽂文書
(0, 1, 2.5, -‐‑‒1, …)
(1, 0.5, -‐‑‒2, 3, …)
(0, 1, 1.5, 2, …)
特徴ベクトル
グラフィカルモデル
分類/回帰
SVM/LogReg/PA/
CW/ALOW/Naïve
Bayes/CNB/DT/
RF/ANN…
クラスタリング
K-‐‑‒means/Spectral
Clustering/MMC/
LSI/LDA/GM…
構造分析
HMM/MRF/CRF…
画像センサー
⾏行行動履履歴
分野に依存しない
抽象化データ
様々な⼿手法
理理論論を適⽤用
特徴
抽出
機械
学習
様々な様式の
⽣生データ

特徴抽出は職⼈人技
•  特徴抽出の重要性
•  特徴の良良し悪しが学習精度度に⼤大きく影響
•  学習アルゴリズムの選択以上に精度度に効く場合も
•  特徴抽出は難しい
•  タスクごとに最適な特徴抽出⽅方法は異異なる
•  機械学習コンテストは最後は特徴抽出のチューニング勝負
•  これまで様々な特徴抽出⽅方法が研究されてきた
•  ⾃自然⾔言語：n-gram/BoW 　画像：SIFT/SURF/HOG/PHOW/BoVW
•  その他にも様々なヒューリスティックが存在
18

19
2012年年画像認識識コンテストで
Deep Learningを⽤用いたチームが優勝
→
ILSVRC2012
優勝チームSupervisonの結果
[Krizhevsky+ ‘12]
以下の2点で衝撃的だった
•  限界と思われた認識識エラー
を4割も減らした
(26%→16%)
•  特徴抽出を⾏行行わず、⽣生の画
素をNNに与えた
翌年年の同コンテストの上位
チームはほぼDeep Learning

Neural Netブーム
•  様々なコンペティションでDLが既存⼿手法を凌凌駕
•  16%(‘12) → 11%(‘13) → 6.6%(‘14)
•  各企業がDL研究者の獲得競争
•  Google/FaceBook/Microsoft/Baidu
•  実サービスもDLベースに置き換えられる
•  Siri/Google画像検索索
GoogLeNetのアーキテクチャ↓
20
Google Brainによる猫認識識↑
[Le+ ’13]

Deep Learningの強さの根拠(と⾔言われているもの)
概要
•  Neural Networkの構造
•  各パーツの改良良(ReLU/CNN/NiN)
•  層の増加→階層的な構造が表現可能に
•  深いNNを学習できるようになった
•  1層ごとの学習
•  強⼒力力な正則化(DropOut/DAE)
•  豊富なリソース
•  計算リソース(GPGPU)と扱う技術
•  NN訓練に⼗十分な訓練データ
21

Deep Learningの強さの根拠（と⾔言われているもの）
(1/3) Neural Networkの構造
•  各層の構造
•  ReLU[Nair+ ‘10]
•  CNN [LeCun+ ‘89]
•  Network in Network[Lin+ ‘13]
•  MaxOut
•  多層化による効果
•  単純特徴の組合せで複雑な特徴
を実現
•  “Disentangling” [GoodFellow
+’09][Bengio ‘14]
↑SigmoidとReLU ↓[Bengio ’14]
22

(2/3) Neural Networkの訓練⽅方法
•  Layerwise Pretrain[Bengio+’07]
•  Auto-Encoderの利利⽤用
•  確率率率的勾配法(SGD)とその派⽣生
•  AdaGrad[Duchi+ ‘11]
•  Nesterov’s Method/RMSProp …
•  強⼒力力な正則化
•  DropOut[Hinton+ ‘12]
•  Denoising Auto-Encoder
↑[岡⾕谷 IBIS’13] ↓[Srivastava+’14]
↑典型的なSGD更更新式
23

•  計算リソースとそれを扱う技術
•  GPGPUの普及
•  分散機械学習 (例例：DistBelief)
•  訓練に⼗十分なデータ
•  ImageNet：1400万枚の画像
•  Sports1M：100万本の動画
↑DistBelief[Jeffrey+’12]
↑ImageNet [Deng+ ’09] ↑[Karpathy+ ‘14]24
(3/3) 豊富なリソース

Deep Learningの得意分野 (1/3)
マルチタスク学習：知識識を共有して複数問題を同時に解く
複数の問題でNNの中間層を共有
↓
問題に共通する有⽤用な特徴を学習
•  応⽤用：GWAS[Puniyani+’10], PheWAS
問題固有の特徴を上層で学習
x
1
x
N
h
1
h
H
k
M
k
1
y
M
y
1
k
M
k
1
y
M
y
1
k
M
k
1
y
M
y
1
25
タスク
1
タスク
2
タスク
3

マルチタスク学習の威⼒力力：
定量量的構造活性相関(QSAR)での成功
* http://blog.kaggle.com/2012/10/31/merck-
competition-results-deep-nn-and-gpus-come-out-to-play/
•  19アッセイでの化合物の活性を
Deep NNを⽤用いて同時に予測、こ
れまでの予測精度度を超える結果を
得る[Dahl+’14]
•  ほぼ同様の⼿手法で同研究Gr. が
Merck 主催の化合物活性予測のコ
ンペティションで優勝*
* Fig. 2 より引⽤用
26

マルチモーダル学習：複数種類データの統合による精度度向上
•  様々なメディア（映像・⾳音声・⽂文書）を
統合する技術として近年年注⽬目を集める
•  ⼊入⼒力力例例
テキスト + ⾳音声 / テキスト + 画像
遺伝⼦子発現 + ゲノムシーケンス
27
x
1
x
N
x
1
x
N
h
1
h
H
k
M
k
1
y
M
y
1
x
1
x
N
[Jefferey+’14]

特徴の⾃自動抽出・分散表現
•  単語ペアの類似度度推定タスク [Kiela+‘14]
•  各単語を2つのベクトルで表現（単語の分散表現+単語に紐紐づく画像の分散表現）
•  画像の分散表現にはCNN
の中間層の出⼒力力を利利⽤用
•  類似度度推定が単語の分散
表現単独の場合よりも⼈人
⼿手の結果に近づいた
28

Deep Learning技術の課題・概要
•  理理論論解析が未整備
•  定⽯石といえるものがない
•  経験的に良良いとされる常識識が覆る
•  設計の⾃自由度度が⾼高い → チューニングが困難
•  特徴抽出職⼈人がNN設計職⼈人に変わっただけ？
29
GoogLeNetのprototxt
2000⾏行行以上ある↓
ILSVRC’14
GoogLeNet↓

30
Deep Learning技術の課題 (1/2)
理理論論解析が未整備
•  理理論論解析の定⽯石と⾔言える⼿手法がまだない
•  例例：DNNの⽬目的関数最適化の収束を証明ができたケースはレア
•  経験的に良良いとされる定説が覆る
•  Pretrainは不不要説/⼤大量量訓練データは不不要説/計算リソースは不不要説
•  SGDによる最適化は鞍点に嵌っている [Dauphin+’14]
•  “Do Deep Nets Really Need to be Deep?” [Ba+’13]
→
ILSVRC’14
GoogLeNet
スライド

Deep Learning技術の課題 (2/2)
設計の⾃自由度度が⾼高い = チューニングが難しい
•  設計時の選択肢：NNの設計は回路路設計に近い
•  ネットワーク（トポロジー/Layer数/Node数/活性化関数/損失関数）
•  学習⽅方法（学習アルゴリズム/Iteration数/学習率率率関連）
•  チューニングパラメータが精度度に⼤大きく影響を与える
•  ReLUで少し学習率率率を変えただけで損失がInfになる
•  アルゴリズムの改善よりもパラメータ探索索が重要になることも
•  NNに対するDSL, クエリ⾔言語の必要性？
GoogLeNetのprototxt
（Caffeの設定ファイル）
2000⾏行行以上ある→
https://github.com/BVLC/caffe/pull/1367/files31

Deep Learningの最近の話題
•  マルチモーダルデータへの適⽤用
•  画像のキャプションを⾃自動⽣生成[Vinyal+ to appear]
•  Recurrent NN, LSTMを⽤用いた可変⻑⾧長データの解析
•  機械翻訳[Sutskever+’14], 動画[Karpathy+ ‘14]
•  DNNの同等の性能をShallow NNで実現する
•  Model Compression[Bucilua+’06] / Distilled Networkによる
Dark Knowledgeの獲得[Hinton+’14]
•  理理論論計算機科学者がDeep Learningの理理論論解析へ進出
•  Layerwise Pretrainの正当化 [Arora+’13]
•  Deep (Directed) Generative Model
•  Generative Stochastic Network[Bengio+’13], Generative
Variational Auto-Encoder[Kingma+’13]
どのトピックも詳しく話すと
本講演1回分の内容です…
32

Deep Learning関連資料料
33
弊社メンバーもUstream /
Slideshare / Research Blog
などで資料料を公開しています
http://www.slideshare.net/pfi/deep-learning-22350063
http://www.slideshare.net/beam2d/deep-learning20140130
http://www.slideshare.net/beam2d/deep-learning-22544096

アジェンダ
34

35
データ解析の典型的な流流れ（再掲）
現象
⽣生データ
整形データ
情報
価値
Sense
Organize
Analyze
Action
S3
‘06/3
Simple DB
‘07/12
EBS
‘08/8
Glacier
‘12/8
RDS
‘09/10
Dynamo DB
‘09/10
Aurora
‘14/11
EMR
‘09/4
Red Shift
‘12/11
Kinesis
‘13/11
Storage
Database
Analytics
効⽤用
例例：AWS
プレーヤーの
提供サービスは概ね
データ解析の⾼高度度化
に沿っている

データ解析の各ステップで壁がある
現象
⽣生データ
整形データ
情報
価値
Sense
Organize
Analyze
Action
効⽤用
データが集められない
⼈人⼿手での解析が
ボトルネック
解析できる
⼈人材がいない
解析結果が経営の⾔言葉葉
に翻訳されていない
計測機器データが
そのまま廃棄される
データを機関外に
出したくない
データ前処理理が⾟辛い
データ粒粒度度が不不適切切
36

データ解析の壁 (1/3)
データを集約するアプローチの困難性
37

データ解析者への要件の多様化
l  いわゆる「データサイエンティスト」に必要なスキル
l  データ解析：確率率率統計学/数学/プログラミング/ドメイン知識識
l  経営判断への活⽤用の期待：コミュニケーション能⼒力力/経営学
l  ⼤大量量データの扱い：分散システム/ネットワーク/データベース
詳しくは弊社の
PFI内部セミナー
(Ustream)
をご覧下さい↓→
38
http://www.slideshare.net/shoheihido/120913-pfi-dist
http://www.slideshare.net/shoheihido/130328-slideshare
http://www.slideshare.net/shoheihido/ss-25510340

データ解析者と意思決定者の間のギャップ
•  「有意差が出てXXXとわかりました」
→「なるほど、それで我が社は儲かる？」
•  「有意差が出てXXXとわかりました」
→「そんな事は経験的に知っている」
•  データインタープリタの必要性などが⾔言われている
•  情報部⾨門に経営の視点を持つ⼈人を要請する？
•  経営企画部が統計の知識識を得る？
39

エッジヘビーコンピューティング[丸⼭山+ʼ’12]
データをネットワークの縁上で処理理する
•  クラウドの中央集権型の処理理から、エッジ側での協調処理理へと向かう
40

データ解析は全て⾃自動化されていなければならない
41
Unify & Generalize
Sensing , Organize, Analyze, Action
•  Security
•  Privacy
•  Heterogeneity
•  Distributed Intelligence

分散インテリジェンスに関する経済予測
CiscoとGEの試算
Cisco : Internet of Everything(IoE)
IoEは⺠民間セクターにおいて今後10年年間で14
兆4000億ドルの機会の創出をもたらす
l  試算の活⽤用／社員の⽣生産性向上／サ
プライチェーン、ロジスティクスの
改善／カスタマーエクスペリエンス
の向上／市場への投⼊入の時間短縮
l  ⽇日本での創出は7610億円（約5%）
l  医療療・ライフサイエンス分野では
2013年年において990億ドルの価値
が最終的に創出される
42
- White Paper Embracing the Internet of Everything To Capture Your Share of $14.4 Trillion
- Industrial Internet: Pushing the Boundaries of Minds and Machines
- The Industrial Internet@Work
GE : Industrial Internet
Industrial Internetにより、世界のGDPは今
後20年年で100兆から150兆ドル成⻑⾧長する
•  インテリジェントな機器／⾼高度度な分析／
つながった⼈人々
•  輸送／⽯石油・ガス／発電プラント／産業
施設／医療療機器
•  医療療での例例：CT、MRIメンテナンスコス
トは400万時間／年年、2億5000万ドルの
⼈人件費に相当

アジェンダ
43

ライフサイエンスにおけるデータ統合の必要性
•  疾患解析には異異なる種類のデータ間の関連・相関を調べる必要がある
•  バイオマーカーの探索索、遺伝⼦子診断
•  ⽣生命現象の複雑性：単⼀一のデータソースを⾒見見ても現象の全容を把握できな
いことがある
•  遺伝要因（ゲノム、インプリンティング、エピゲノム、遺伝⼦子発現）
•  ⾝身体的要因（⾝身⻑⾧長、体重、年年齢）
•  ⽣生活習慣要因（飲酒・喫煙の有無、運動の有無）
•  環境要因（出⾝身地・幼少の⽣生活環境・居住環境）
先天的・遺伝性後天的・⽣生活習慣
II型糖尿尿病など出⽣生前診断
予防医療療
44

ライフサイエンスデータのOrganize
プロジェクト例例(1/2)
遺伝⼦子・転写物検索索 GGRNA
“Google-like full text search engine”
•  ライフサイエンス統合データベースセンター(DBCLS)・
内藤雄樹助教との共同研究
•  NCBIのRefSeqデータの全⽂文検索索が可能
•  ヒト、マウス、酵⺟母菌など13種を横断検索索(“Zoo”)
•  曖昧検索索、メタデータの検索索にも対応
•  弊社全⽂文検索索エンジン「Sedue」
をバックエンドとして採⽤用
•  Nucl.AcidsRes.2012にて論論⽂文発表
[Naito+’12]
45

ライフサイエンスデータのOrganize
プロジェクト例例(2/2)：GGGenome
•  ゲノム配列列の⾼高速曖昧検索索サービス
•  DDBJ Release 92.0の全塩基配列列を曖昧検索索可能
•  ヒト(hg19)、マウス(mm10)など12種類
•  ディベロッパー向けRESTful APIを提供
•  弊社開発の曖昧検索索エンジンをバックエンドとして採⽤用
ACGTGATC
ACTAATC
削除置換
d (ACGTGATC, ACTAATC) = 3

GGRNA/GGGenome稼働実績
[マシンスペック]
2Uサーバー1台（CPU 6コア×2 3.46GHz/メモリ192GB）
GGGenome バージョン塩基配列列インデックス
RefSeq 61 8.6GB 52.4GB
DDBJ 92.0 150.8GB 932.2GB
ヒトゲノム hg19 3.1GB 19.0GB
GGRNA バージョン全⽂文書インデックス
RefSeq 61 32.4GB 210.3GB
DDBJ(未公開) 92.0 559.2GB 3192.8GB
[データサイズ]
47

48
構想：マルチタスク・マルチモーダル学習による
ヘテロジニアスなデータの横断的活⽤用の実現
遺伝⼦子発現
データ
シーケンス
データ
化合物
データ
疾患
データ
表現型
予測
⽅方策
推薦
診断
助⾔言
SQL
R&D 創薬ヘルスケア医療療
x
1
x
N
x
1
x
N
h
1
h
H
k
M
k
1
y
M
y
1
k
M
k
1
y
M
y
1
利利⽤用
解析プラットフォーム

49
エッジヘビーコンピューティングとの関係
遺伝⼦子発現
データ
シーケンス
データ
化合物
データ
疾患
データ
表現型
予測
⽅方策
推薦
診断
助⾔言
SQL
R&D 創薬ヘルスケア医療療
利利⽤用
解析プラットフォーム
巨⼤大な中間層
クラウド側
(将来はエッジ側に)
DB+⼊入⼒力力層
エッジ側(プラガブル)

50
ライフサイエンス分野でのデータ活⽤用の問題
まだまだ⼭山積み
データ流流通の未整備
•  「データの⽣生成者」≠「解析による受益者」→ 利利害の不不⼀一致
データ収集の壁
•  「実験データ解析コスト」＜「実験データ作成コスト」
•  難病疾患の治験での症例例／基礎研究の実験データ
•  1カ所に集められない（技術的・法律律的）
•  病院内の電⼦子カルテ情報／製薬会社の化合物ライブラリ
•  最近はデータをオープン・共有する動きもある
擬陽性が許されない
•  1件でもエラーがでたら損害賠償 → 機械学習には不不向き

まとめ
•  データ解析の典型的な流流れ：Sense, Organize, Analyze, Action
•  データを⾼高度度に活⽤用する⼿手段として機械学習が注⽬目を集めています
•  特徴抽出の⾃自動化・タスク精度度の⾶飛躍的向上などによりこの数年年Deep
Learning技術が様々な領領域に適⽤用されています
•  データ解析の様々な壁を超える⽅方法として、データ解析の全⾃自動化、
エッジヘビーコンピューティングなどの⽅方法が考えられています
•  ライフサイエンス現象の解析にはデータを統合的な解析が必要です。
それを実現するためのプラットフォームを提案しました
51

参考⽂文献(1/5)
[Arora+’13] Arora, Sanjeev, et al. "Provable bounds for learning some deep representations." arXiv preprint
arXiv:1310.6343 (2013).
[Ba+’13] Ba, Lei Jimmy, and Rich Caurana. "Do Deep Nets Really Need to be Deep?." arXiv preprint arXiv:
1312.6184 (2013).
[Bengio+’07] Bengio, Yoshua, et al. "Greedy layer-wise training of deep networks." Advances in neural
information processing systems 19 (2007): 153.
[Bengio+’13] Bengio, Yoshua, and Eric Thibodeau-Laufer. "Deep generative stochastic networks trainable
by backprop." arXiv preprint arXiv:1306.1091 (2013).
[Bengio’14] Bengio, Yoshua. "How auto-encoders could provide credit assignment in deep networks via
target propagation." arXiv preprint arXiv:1407.7906 (2014).
[Bucilua+’06] Buciluǎ, Cristian, Rich Caruana, and Alexandru Niculescu-Mizil. "Model compression."
Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.
ACM, 2006.
52

[Dahl+’14] Dahl, George E., Navdeep Jaitly, and Ruslan Salakhutdinov. "Multi-task Neural Networks for
QSAR Predictions." arXiv preprint arXiv:1406.1231 (2014).
[Dauphin+’14] Dauphin, Yann N., et al. "Identifying and attacking the saddle point problem in high-
dimensional non-convex optimization." Advances in Neural Information Processing Systems. 2014.
[Duchi+’11] Duchi, John, Elad Hazan, and Yoram Singer. "Adaptive subgradient methods for online
learning and stochastic optimization." The Journal of Machine Learning Research 12 (2011): 2121-2159.
[Deng+’09] Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." Computer Vision and
Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009.
[GoodFellow+’09] Goodfellow, Ian, et al. "Measuring invariances in deep networks." Advances in neural
information processing systems. 2009.
[Hinton+’12] Hinton, Geoffrey E., et al. "Improving neural networks by preventing co-adaptation of feature
detectors." arXiv preprint arXiv:1207.0580 (2012).
53

[Hinton+’14] Geoffrey Hinton, Oriol Vinyals, Jeff Dean, Distilling the Knowledge in a Neural Network, Deep
Learning and Representation Learning Workshop: NIPS 2014
[Jeffrey+’12] Dean, Jeffrey, et al. "Large scale distributed deep networks." Advances in Neural Information
Processing Systems. 2012.
[Jeffrey+’14] Large Scale Deep Learning CIKM keynote, 2014, http://static.googleusercontent.com/
media/research.google.com/ja//people/jeff/CIKM-keynote-Nov2014.pdf
[Karpathy+ ’14] Karpathy, Andrej, et al. "Large-scale video classification with convolutional neural
networks." IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2014.
[Kingma+’13] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint
arXiv:1312.6114 (2013).
[Klela+’14] Learning Image Embeddings using Convolutional Neural Networks for Improved Multi-Modal
Semantics, D. Kiela and Leon Bottou EMNLP 2014
54

[Krizhevsky+ ’12] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with
deep convolutional neural networks." Advances in neural information processing systems. 2012.
[Le+’13] Le, Quoc V. "Building high-level features using large scale unsupervised learning." Acoustics,
Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013.
[LeCun+ ’89] Yann LeCun, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne
Hubbard, Lawrence D Jackel, Backpropagation applied to handwritten zip code recognition, Advances in
neural information processing systems 2, NIPS 1989, 396-404
[Lin+’13] Lin, Min, Qiang Chen, and Shuicheng Yan. "Network In Network." arXiv preprint arXiv:1312.4400
(2013).
[Nair+ ’10] Nair, Vinod, and Geoffrey E. Hinton. "Rectified linear units improve restricted boltzmann
machines." Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010.
[Naito+’12] Yuki Naito and Hidemasa Bono, GGRNA: an ultrafast, transcript-oriented search engine for
genes and transcripts, Nucl. Acids Res. (2012) 40(W1):W592-W596
55

[Puniyani+’10] K. Puniyani, S. Kim, and E. P. Xing, “Multi-population GWA mapping via multi-task
regularized regression,” Bioinformatics, vol. 26, no. 12, pp. i208-i216, Jun. 2010
[Srivastava+’14] Srivastava, Nitish, et al. "Dropout: A simple way to prevent neural networks from
overfitting." The Journal of Machine Learning Research 15.1 (2014): 1929-1958.
[Sutskever+’14] Sutskever, Ilya, Oriol Vinyals, and Quoc VV Le. "Sequence to sequence learning with neural
networks." Advances in Neural Information Processing Systems. 2014.
[岡⾕谷ʼ’13] 岡⾕谷貴之, 画像認識識分野でのディープラーニングの研究動向, 第16回情報論論的学習理理論論ワークショップ
(IBIS2013)
[丸⼭山+’12] 丸⼭山宏, 岡野原⼤大輔 Edge-Heavy Data: CPS・ビッグデータ・クラウド・スマホがもたらす次世代
アーキテクチャ GICTF総会特別講演 2012, http://www.gictf.jp/doc/20120709GICTF.pdf
56

（キャプション無し）
59

60

61

略略語⼀一覧
Deep Learning関連
•  DL : Deep Learning
•  NN : Neural Network
•  DNN : Deep Neural Network
•  CNN : Convolutional Neural Network
•  RNN : Recurrent Neural Network
•  LSTM : Long Short-Term Memory
•  ReLU : Rectified Linear Unit
•  NiN：Network in Network
•  AE：Auto-Encoder
•  DAE：Denoising Auto-Encoder
ライフサイエンス関連
•  GWAS : Genome-Wide Association Study
•  PheWAS : Phenome-Wide Association Study
•  QSAR : Quantitative Structure–Activity
Relationship
画像解析関連
•  BoVW : Bug of Visual Word
•  SIFT : Scale-Invariant Feature Transform
•  SURF : Speeded Up Robust Features
•  HOG : Histogram of Oriented Gradients
•  PHOW : Pyramid Histogram Of visual Words

63
⽤用語解説(1/3)：アーキテクチャ関連
•  Net：Neural Net(NN)のアーキテクチャ全体
•  Node = Neuron、Unit
•  Nodeの集まりを（ややこしいが）○○層とも⾔言う
•  Layer：異異なる階層のNodeをつなぐモジュール
x
1
x
N
h
1
h
H
k
M
k
1
y
M
y
1
t
M
t
1
Forward
Backward
Net Node
Layer

⽤用語解説(2/3)：Layerに関する注意
•  論論⽂文ではNodeの中で活性化関数を含む事が多いが、実装では活性化関
数をLayerで実現することが多い
Y=σ(WX)
W
X
X
WX
Y
W
σ
64

minibatch j
⽤用語解説(3/3)
：訓練関連
Epoch 1
Epoch N
Epoch 2
Epoch i
Epoch i
全訓練データを
シャッフル
minibatch 1
訓練データ 2
minibatch 2
minibatch M
minibatch j
訓練データ 1
訓練データ B
パラメータ更更新
時刻
•  Epoch (Iteration)：全訓練データを1巡する事
→ 各訓練データはNetにN回与える
•  Solver：Netを訓練するモジュール
•  minibatch：少数の訓練データをまとめてNNに
与えた後にパラメータ更更新
65

Deep Learningの歴史(1/3)
•  Perceptron [Rosenblatt‘58]
•  「Perceptrons」でのPerceptron批判 [Minsky+ ‘69]
•  Back Propagation [Bryson+ ‘69]
•  BPのNNへの適⽤用 [Werbos‘74]
•  Neocognitron[Fukushima‘80] / Hopfield
Network[Hopfield’82] / PDP model[Rumelhart+
‘86] / Gradient Descent[Rumelhart+ ‘86]
[McClelland+’86]
1960
1970
1980
1990
第1次NNブーム
AI冬の時代
第2次NNブーム
AI冬の時代
66

•  Bayesian Network [Pearl‘85] Support Vector Machine
[Corinna, Vapnik’95]
•  SVM・Boostingに押されてNNは冬の時代
•  過学習の問題 / “Vanishing Gradient
Problem”[Hochreiter’91]
•  この時代に次のブームの要素技術は開発されていた
•  RBM[Smolensky’86]/CNN[LeCun’89]/
RNN[Jordan’86, Elman‘90]/ LSTM[Hochreiter+
‘97]
•  Greedy Layerwise Pretrain[Bengio+’07]
•  Deep Belief Network[Hinton+’06]
•  Deep Bolzmann Machine[Salakhutdinov+’09]
1990
2000
機械学習の流流⾏行行
NN冬の時代
深層化技術の
ブレイクスルー
67

•  ILSVRCでSupervision[Krizhevsky+ 2012]が優勝
•  Google Brain[Le, Ng, Jeffrey+ 2012]
→ 現在まで続くDeep Learningブームの始まり
•  各企業がDL研究者の獲得競争
•  GoogLeNet[Szegedy+ 2014]
2010
第3次NNブーム
2014
68

ライフサイエンスデータ解析の壁(1/2)
•  Senseの壁：プライベート性
•  製薬企業の化合物データは企業秘密
•  ゲノムデータは究極の個⼈人情報
•  Organizeの壁：データの散財
•  研究成果のデータベースが乱⽴立立している
•  病院間でカルテが共有されておらず、同じ検査を別病院で実施
•  各研究所がデータを独⾃自で貯めている
69

ライフサイエンスデータ解析の壁(2/2)
•  Organizeの壁：データのヘテロジニアス性
•  種類がバラバラ：テキスト/画像/センサー
•  ⽤用途がバラバラ：基礎研究/予防/医療療/ヘルスケア
•  データ量量がバラバラ：難病治験と1000⼈人ゲノムプロジェクト
•  Analyzeの壁：リアルタイム性
•  副作⽤用：この薬を飲んではいけません/この薬を処⽅方してはいけません
•  緊急医療療：⽬目の前の患者を助けるのに夜間バッチを待っていられない
•  遺伝⼦子発現量量：遺伝⼦子は静的でも、発現量量は動的に変化する
70

[Bengio+’07] Bengio, Yoshua, et al. "Greedy layer-wise training of deep networks." Advances in neural
information processing systems 19 (2007): 153.
[Bryson+’69] Bryson, Arthur E., and Ho Yu Chi. "Applied optimal control." (1969).
[Cortes+’95] Cortes, Corinna, and Vladimir Vapnik. "Support-vector networks." Machine learning 20.3
(1995): 273-297.
[Elman+’90] Elman, Jeffrey L. "Finding structure in time." Cognitive science 14.2 (1990): 179-211.
[Fukushima’80] Fukushima, Kunihiko. "Neocognitron: A self-organizing neural network model for a
mechanism of pattern recognition unaffected by shift in position." Biological cybernetics 36.4 (1980):
193-202.
[Hinton+’06] Hinton, Geoffrey, Simon Osindero, and Yee-Whye Teh. "A fast learning algorithm for deep
belief nets." Neural computation 18.7 (2006): 1527-1554.
[Hochreiter’91] Hochreiter, Sepp. "Untersuchungen zu dynamischen neuronalen Netzen." Master's thesis,
Institut fur Informatik, Technische Universitat, Munchen (1991).
71

[Hochreiter+’97] Hochreiter, Sepp, J. urgen Schmidhuber, and Corso Elvezia. "LONG SHORT-TERM
MEMORY." Neural Computation 9.8 (1997): 1735-1780.
[Hopfield’82] Hopfield, John J. "Neural networks and physical systems with emergent collective
computational abilities." Proceedings of the national academy of sciences 79.8 (1982): 2554-2558.
[Jordan’86] Jordan, Michael I. Serial Order: A Parallel Distributed Processing Approach. No. ICS-8604.
CALIFORNIA UNIV SAN DIEGO LA JOLLA INST FOR COGNITIVE SCIENCE, 1986.
[LeCun+ ’89] Yann LeCun, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne
Hubbard, Lawrence D Jackel, Backpropagation applied to handwritten zip code recognition, Advances in
neural information processing systems 2, NIPS 1989, 396-404,
[Krizhevsky+ ’12] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with
deep convolutional neural networks." Advances in neural information processing systems. 2012.
72

[Le+’13] Le, Quoc V. "Building high-level features using large scale unsupervised learning." Acoustics,
Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013.
[McClelland+’86] McClelland, James L., David E. Rumelhart, and PDP Research Group. "Parallel
distributed processing." Explorations in the microstructure of cognition 2 (1986).
[Minsky+’69] Minsky, Marvin, and Seymour Papert. "Perceptron: an introduction to computational
geometry." The MIT Press, Cambridge, expanded edition 19 (1969): 88.
[Pearl’85] Pearl, Judea. "BAYESIAN NETWCRKS: A MODEL CF ‘SELF-ACTIVATED MEMORY FOR
EVIDENTIAL REASONING." (1985).
[Rosenblatt’58] Rosenblatt, Frank. "The perceptron: a probabilistic model for information storage and
organization in the brain." Psychological review 65.6 (1958): 386.
[Rumelhart+’86] Rumelhart, David E., James L. McClelland, and PDP Research Group. "Parallel
distributed processing, volume 1: Foundations." MIT Press, Cambridge, MA 19 (1986): 67-70.
73

[Salakhutdinov+’09] Salakhutdinov, Ruslan, and Geoffrey E. Hinton. "Deep boltzmann
machines." International Conference on Artificial Intelligence and Statistics. 2009.
[Smolensky’86], Smolensky, Paul. "Information processing in dynamical systems: Foundations
of harmony theory." (1986): 194.
[Szegedy+’14], Szegedy, Christian, et al. "Going deeper with convolutions." arXiv preprint arXiv:
1409.4842 (2014).
[Werbos’74] Werbos, Paul. "Beyond regression: New tools for prediction and analysis in the
behavioral sciences." (1974).
74

Deep Learning技術の最近の動向とPreferred Networksの取り組み

More Related Content

What's hot

Similar to Deep Learning技術の最近の動向とPreferred Networksの取り組み

More from Kenta Oono

Deep Learning技術の最近の動向とPreferred Networksの取り組み