Deep Learning 中心に見る最近の論文事情
東京大学 工学系研究科
技術経営戦略学専攻 山下雄大
Twitter :@guruttonR
※ 注意 ※
内輪の発表会に用いた資料です
意見(時系列の解釈など)は主観的なものになります
論文の詳しい説明は目的にしていません
間違い・指摘等あればコメントしてください
論文の多様化についてけない
Computer Vision?
Natural Language Processing?
Reinforcement Learning?
Embedding?
Recommend System?
Social Analysis?
Graph theory?
論文を読もう!!
…当たり前ですね
やるべきだった
NLP
(自然言語処理)
元々やってた
CV
(画像処理)
興味があった
RL
(強化学習)
お互いの技術を参考にしあって混ざり合っている
本題に入るその前に…
言葉の意味がわからない発表ほど面白くないものはない
DL
分散表現
CNN
LSTM
RNN
CV
NLP
RLZzz
Zzz
本題に入るその前に…
言葉の意味がわからない発表ほど面白くないものはない
ものすごく荒くDeep Learningの基礎部分を説明します
パーセプトロン
u = w1x1 +w2x2 +w3x3 +w4x4 +b
z = f (u)
x1
x2
x3
x4
z
zu入
力
出
力
活性化関数
パーセプトロン
zj = f (uj )
uj = wji
i
I
å xi + bj
入
力
出
力
u = Wx + b
z = f(u)
多層パーセプトロン
入
力
出
力
u(l+1) = W(l+1)z(l) + b(l+1)
z(l+1) = f(u(l+1))
多層パーセプトロン
入力層 隠れ層 出力層
入
力
出
力
順伝播
誤差逆伝播法
入
力
出
力
逆伝播
教
師
デ
ー
タ
比較
重みの修正1
重みの修正2
ディープラーニングとは
多層パーセプトロン ディープラーニング
層を増やす
(基本的には)
層を深くすればするほど良い結果が出る!
RNN と CNN
RNN CNN
・ 時系列データ(言語や音声)に対するNN
・ 隠れ層の値を次の隠れ層計算時に利用
・ 勾配爆発・消失に対応する一つの形
・ より過去の情報を利用するLSTMが人気
・ 画像データに対するNN
・ 入力を二次元のまま扱う
・ 畳み込み層とプーリング層から成る
・ 画像内のずれを処理することができる
RNN(基本) LSTM 畳み込み層 プーリング層
Abstract
論文survey のまとめを発表します
NLP・CV・RL の分野(特にNLP)で最近の研究を追います
修士論文で扱ったDeep Learningを中心に見ていきます
注意点
主観的な把握が何点か入っています
発想自体は古くからある(ものが多い)ことは留意してください
お互いの分野がどのようにして混ざりあっているかざっくり示す
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
Q-Learning理論の登場
Learning from Delayed Rewards
現在用いられているQ-Learningの理論をまとめあげた論文
動的計画法とマルコフ法を組み合わせたTD法により行動価値(Q)に
関する方策ナシ学習を行う
オススメ書籍
強化学習
・ 2000年に出版された本でありながら、現在も強化学習
の分野では用いられているバイブル的著書
・ 英語の原書はネットで無料取得可能
“http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf”
(Christopher Watkins, 1989)
DL (Deep Learning)への注目
ImageNet Classification with Deep Convolutional Neural Networks
LSVRC2012でCNNを用いて圧倒的に優勝
Dropoutを用いるなど、現在多く用いられるDLの技術を確立
正例 負例 層構造
(Alex Krizhevsky, et al., 2012)
本論文以降、DLに関する論文が爆発的に増加
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
転移学習を用いた他タスクへの応用
単語の分散表現の獲得
Efficient Estimation of Word representations in vector space
CBOWとSkip-gramの2つのモデル(word2vec)を提唱
Skip-gramは現在最も使われている単語分散表現獲得手法の一つ
CBOW Skip-gram
(Tomas Mikolov , et al., 2013)
ハフマン木と階層的ソフトマックスを用いた高速化などのが行われている
続く論文でネガティブサンプリングなどを導入し、より良い表現の獲得手法を提案
対象語から
周辺語を予測
周辺語から
対象語を予測
文章の分散表現の獲得
Distributed Representations of Sentences and Documents
word2vecを文章に発展させたparagraph2vecを提案
仕組みはほとんどword2vecと同じで、文章ベクトルに当たるものを追加
構造例
(Tomas Mikolov , 2014)
文章を固定長ベクトルで表現する考えは、本論文以降も様々な手法で提案される
実験の結果、従来の手法よりも良い
精度で文章のポジネガ判定や、類似
文脈を持つ文の特定ができるように
なった
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成
転移学習を用いた他タスクへの応用
RNNで機械翻訳
Sequence to Sequence Learning with Neural Networks
Encoder と Decoder の2モデルから成る機械翻訳手法における提案論文の1つ
このモデルは文章生成に関するタスクで多く用いられている
入力文章を逆向き(”ABC” -> “CBA”)にすることで精度改善することを報告
(Ilya Sutskever, et al., 2014)
LSTMを用いたことにより、より長い文章においても正しく翻訳できることを示した
構造例 結果
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成
転移学習を用いた他タスクへの応用
動画解析
画像のキャプション生成
画像入力の説明文(キャプション)生成
Show and Tell: A Neural Image Caption Generator
CNNで画像の特徴量を生成し、LSTMで画像を説明するキャプションを生成する
開始と終了を表す文字生成を覚えさせることで、出力文章の長さは制限されない
(Oriol Vinyals , et al., 2015)
BLEUスコアでは人が書いた文章と遜色ない評価を出すが、人が評価すると
大きな差が出ている
構造 結果例
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成 Attentionによる文章生成
転移学習を用いた他タスクへの応用
動画解析
画像のキャプション生成
Attention(=どこを訳すのか)の導入
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
近年の機械翻訳手法では原文を固定長ベクトルにencodeし、decoderで翻訳するが
著者は長文に対して精度が低くなる原因と仮説
encoderに当たるモデルにどの要素をどれくらい使うか(部分的な注目=Attention)を
学習させ、decoderを用いて翻訳を行う
(Dzmitry Bahdanau, et al., 2015)
Attentionは前部分のみでなく、後部分からも影響を受けるとし、双方向LSTMを使用
構造 結果
特に長文生成において、従来の手法を大きく上回る成果を示す
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成 Attentionによる文章生成
Attentionによるキャプション生成
転移学習を用いた他タスクへの応用
動画解析
画像のキャプション生成
キャプション生成におけるAttention
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
Attentionの概念を画像のキャプション生成にも適応させた
機械がどこに着目しながら文章生成を行っているか把握することで、
より精緻な文章生成を行うための知見が得られると期待される
(Kelvin Xu, et al., 2016)
構造 結果例
CNNで生成される低次元での特徴量を用い、各領域に対応する文章を確認する
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
画像生成
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成 Attentionによる文章生成
Attentionによるキャプション生成
転移学習を用いた他タスクへの応用
動画解析
3Dモデル解析
画像のキャプション生成
2つのモデルを用いた画像生成手法
本物のような画像を生成する生成モデルと、生成モデル作と本物を見極める
識別モデルを用意し、互いで競わせることによって学習させる
各要素に対応した乱数によって画像を扱うため、恣意的に画像から要素(男女など)
を差し引いたり、足したりすることができる
結果例
細かく見ると不自然なものもあるが、大まかには本物と感じさせるレベルで画像の
生成が可能となった
UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL
GENERATIVE ADVERSARIAL NETWORKS (Alec Radford , et al., 2016)
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
画像生成
Deep Q-learning
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成 Attentionによる文章生成
Attentionによるキャプション生成
転移学習を用いた他タスクへの応用
動画解析
3Dモデル解析
Deep Recurrent Q-learning
画像のキャプション生成
DLとQ-Learningの融合 -> 人を超えるゲーマー
CNNの特徴生成能力を活かし、Q-Learningと組み合わせることで
人を超えるレベルでのプレイを行わせることに成功した
ゲームの種類によっては弱いものもあるが、複数のatari 2600シリーズで人に勝る
結果を示しており、汎用性の高い手法であることを示した
構造 結果例
1秒間に4フレームを用いて状況を与え、スコアを報酬として学習させる
Human-level control through deep reinforcement learning
(Kelvin Xu, et al., 2016)
DQN(Deep Q-Learning)の応用
Active Object Localization with Deep Reinforcement Learning
DQNを画像のLocalizationに応用し、少ない行程(11~25程度)での探索を実現
対象の大きさにはロバストな様子を示すが、occlusion や truncation には弱い
(Juan C. Caicedo, et al., 2016)
構造 探索例
R-CNNには劣るものの、他の従来手法よりも良い精度を示した
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
画像生成
Deep Q-learning
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成 Attentionによる文章生成
Attentionによるキャプション生成
転移学習を用いた他タスクへの応用
動画解析
3Dモデル解析
Deep Recurrent Q-learning
画像のキャプション生成
Overview
NLP
CV
RL
2013
NNの
基礎理論
RNN・CNN
の提案
DLへの
注目
Q-Learning
の提案
1989
20162014 2015
NNを用いた分散表現の獲得
CNNを用いた物体認識
画像生成
Deep Q-learning
マルチモーダルな潜在表現の獲得
RNNを用いた文章生成 Attentionによる文章生成
Attentionによるキャプション生成
転移学習を用いた他タスクへの応用
動画解析
3Dモデル解析
Deep Recurrent Q-learning
画像のキャプション生成
・ 自然言語におけるNNは勾配爆発と勾配消失との戦い
・ 多くの手法が画像分野や実務などに応用されている
・ 短期的なトレンドはAttentionを用いた文章生成
・ DLとの相性の良さからDL領域での研究はかなり盛ん
・ 去年〜今年のトップカンファレンスは動画・3Dが中心か
・ 識別モデル中心だったが、生成モデルがこれからのトレンド?
・ 従来と同じようにPOMDPへの応用の流れがDQNにもある
・ 現在は画像分野が中心、今後は時系列データへの応用が増加?
・ 課題設定が特に重要で、教師アリ学習に対する利点をどう示すか
Summary
技術発展のスピードがものすごく早い
DL関連では1年では毎年のように何らかの激変が起こっている
BengioさんやHintonさんたちが入ってる論文は変革率がかなり高い
各領域の内容が相互の領域の手法に影響を与えている
発想自体は新しくないものも多い
arXivの活性化もあり、引用までのスピードも上がっている
データの増加やGPGPUなどの発展による影響が現れている
発想は古くから変わってなかったり、提案されていたものが割とある
おわり

DeepLearning 中心に見る最近の論文事情