recurrent models of visual attentionメモ

Recurrent Models of  
Visual Attention 
1
棚橋耕太郎
Mnih,
Volodymyr,
Nicolas
Heess,
and
Alex
Graves.
"Recurrent
models
of
visual
attention."

Advances
in
Neural
Information
Processing
Systems.
2014.

背景
1. CNNの問題点:
画像の解像度を下げても学習
と予測の計算量が大きいので計算に時間が
かかる

2. 人間は視界に映る全ての映像を処理せず，
選択的に次に見る部分を決めていく

3. Task-‐drivenな方法で画像の注目部分を動か
していくモデルを作成すれば計算量削減/調
整できるのでは？

The
Recurrent
Attention
Model
(RAM)
A:
中心点lt−１
において元画像xtから複数の解像度(波長)の画像を得る．

B:
中心点lt−１
と画像xtは個別に隠れ層へ線形にマッピングされ統合される．

C:
隠れ層から次に見る位置ltを出力して，中心点をltに動かす．

model詳細
2つのAction

1. 次に見る窓の位置ltを決める

2. 状態に対するaction(識別タスクの場合だと
softmaxでペナルティ/報酬を与える)

いつ動きを止めるか？

窓を動かす回数が多くなるとペナルティを課
す

実際の視線の動き
数字を見るように視線が動いている
Cluttered
non-‐centeredなタスクにおいてCNNより3%良い結果

→ノイズに対してロバスト,実データに強い

動く環境の場合
ゲーム”Catch”をやらせる

ルール: ボールをキャッチするシンプルなゲーム

・キャッチできたら0点

・できなかったら1点

最終的な点数のみを報酬として与えた．
24px
24px
.
動かしてキャッチする
6px
視界

Further
discussion
1. 無駄なところを見ないので計算量が少ない

2. 窓のサイズなどを変えることで計算量をコン
トロールできる

今後は映像の識別などに利用できると期待される

ロボットのカメラのうごきに利用できそう

recurrent models of visual attentionメモ

Recommended

Recommended

More Related Content

More from Kotaro Tanahashi

More from Kotaro Tanahashi (13)

recurrent models of visual attentionメモ