SlideShare a Scribd company logo
1 of 7
Download to read offline
Recurrent Models of 

Visual Attention

1
棚橋 耕太郎
Mnih,	
  Volodymyr,	
  Nicolas	
  Heess,	
  and	
  Alex	
  Graves.	
  "Recurrent	
  models	
  of	
  visual	
  attention."	
  
Advances	
  in	
  Neural	
  Information	
  Processing	
  Systems.	
  2014.
背景
1. CNNの問題点:	
  画像の解像度を下げても学習
と予測の計算量が大きいので計算に時間が
かかる	
  
2. 人間は視界に映る全ての映像を処理せず,
選択的に次に見る部分を決めていく	
  
3. Task-­‐drivenな方法で画像の注目部分を動か
していくモデルを作成すれば計算量削減/調
整できるのでは?	
  
The	
  Recurrent	
  Attention	
  Model	
  (RAM)
A:	
  中心点lt−1
において元画像xtから複数の解像度(波長)の画像を得る.	
  
B:	
  中心点lt−1
と画像xtは個別に隠れ層へ線形にマッピングされ統合される.	
  
C:	
  隠れ層から次に見る位置ltを出力して,中心点をltに動かす.	
  
model詳細
2つのAction	
  
1. 次に見る窓の位置ltを決める	
  
2. 状態に対するaction(識別タスクの場合だと
softmaxでペナルティ/報酬を与える)	
  
いつ動きを止めるか?	
  
窓を動かす回数が多くなるとペナルティを課
す
実際の視線の動き
数字を見るように視線が動いている
Cluttered	
  non-­‐centeredなタスクにおいてCNNより3%良い結果	
  
→ノイズに対してロバスト,実データに強い
動く環境の場合
ゲーム”Catch”をやらせる	
  
ルール: ボールをキャッチするシンプルなゲーム	
  
・キャッチできたら0点	
  
・できなかったら1点	
  
最終的な点数のみを報酬として与えた.
24px
24px
.
動かしてキャッチする
6px
視界
Further	
  discussion
1. 無駄なところを見ないので計算量が少ない	
  
2. 窓のサイズなどを変えることで計算量をコン
トロールできる	
  
今後は映像の識別などに利用できると期待される	
  
ロボットのカメラのうごきに利用できそう

More Related Content

More from Kotaro Tanahashi

NIPS Paper Reading, Data Programing
NIPS Paper Reading, Data ProgramingNIPS Paper Reading, Data Programing
NIPS Paper Reading, Data ProgramingKotaro Tanahashi
 
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender SystemsWSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender SystemsKotaro Tanahashi
 
変数の入れ替え(SWAPPING)で最速の方法は?
変数の入れ替え(SWAPPING)で最速の方法は?変数の入れ替え(SWAPPING)で最速の方法は?
変数の入れ替え(SWAPPING)で最速の方法は?Kotaro Tanahashi
 
SWARでpop countをしよう
SWARでpop countをしようSWARでpop countをしよう
SWARでpop countをしようKotaro Tanahashi
 
Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会Kotaro Tanahashi
 
2.2. map reduce and the new software stack
2.2. map reduce and the new software stack2.2. map reduce and the new software stack
2.2. map reduce and the new software stackKotaro Tanahashi
 
deep learning library coyoteの開発(CNN編)
deep learning library coyoteの開発(CNN編)deep learning library coyoteの開発(CNN編)
deep learning library coyoteの開発(CNN編)Kotaro Tanahashi
 
情強アルゴリズムDIMSUM
情強アルゴリズムDIMSUM情強アルゴリズムDIMSUM
情強アルゴリズムDIMSUMKotaro Tanahashi
 
Fokker–Planck equation and DPD simulations
Fokker–Planck equation and DPD simulationsFokker–Planck equation and DPD simulations
Fokker–Planck equation and DPD simulationsKotaro Tanahashi
 
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用Kotaro Tanahashi
 
How nosql fundamentally changed machine learning?
How nosql fundamentally changed machine  learning?How nosql fundamentally changed machine  learning?
How nosql fundamentally changed machine learning?Kotaro Tanahashi
 

More from Kotaro Tanahashi (13)

NIPS Paper Reading, Data Programing
NIPS Paper Reading, Data ProgramingNIPS Paper Reading, Data Programing
NIPS Paper Reading, Data Programing
 
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender SystemsWSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
 
変数の入れ替え(SWAPPING)で最速の方法は?
変数の入れ替え(SWAPPING)で最速の方法は?変数の入れ替え(SWAPPING)で最速の方法は?
変数の入れ替え(SWAPPING)で最速の方法は?
 
SWARでpop countをしよう
SWARでpop countをしようSWARでpop countをしよう
SWARでpop countをしよう
 
Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会
 
2.2. map reduce and the new software stack
2.2. map reduce and the new software stack2.2. map reduce and the new software stack
2.2. map reduce and the new software stack
 
Cythonの一喜一憂
Cythonの一喜一憂Cythonの一喜一憂
Cythonの一喜一憂
 
deep learning library coyoteの開発(CNN編)
deep learning library coyoteの開発(CNN編)deep learning library coyoteの開発(CNN編)
deep learning library coyoteの開発(CNN編)
 
情強アルゴリズムDIMSUM
情強アルゴリズムDIMSUM情強アルゴリズムDIMSUM
情強アルゴリズムDIMSUM
 
LBFGSの実装
LBFGSの実装LBFGSの実装
LBFGSの実装
 
Fokker–Planck equation and DPD simulations
Fokker–Planck equation and DPD simulationsFokker–Planck equation and DPD simulations
Fokker–Planck equation and DPD simulations
 
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用
 
How nosql fundamentally changed machine learning?
How nosql fundamentally changed machine  learning?How nosql fundamentally changed machine  learning?
How nosql fundamentally changed machine learning?
 

recurrent models of visual attentionメモ