Submit Search
Upload
recurrent models of visual attentionメモ
•
4 likes
•
1,063 views
K
Kotaro Tanahashi
Follow
recurrent models of visual attentionメモ
Read less
Read more
Science
Report
Share
Report
Share
1 of 7
Download now
Download to read offline
Recommended
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
20210511 grass roots_ml_design_patterns_two_phase_predictions
20210511 grass roots_ml_design_patterns_two_phase_predictions
hitoshim
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui
人工知能13 deep learning
人工知能13 deep learning
Hirotaka Hachiya
Cvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoaki
tomoaki0705
Recommended
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
20210511 grass roots_ml_design_patterns_two_phase_predictions
20210511 grass roots_ml_design_patterns_two_phase_predictions
hitoshim
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui
人工知能13 deep learning
人工知能13 deep learning
Hirotaka Hachiya
Cvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoaki
tomoaki0705
NIPS Paper Reading, Data Programing
NIPS Paper Reading, Data Programing
Kotaro Tanahashi
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
Kotaro Tanahashi
変数の入れ替え(SWAPPING)で最速の方法は?
変数の入れ替え(SWAPPING)で最速の方法は?
Kotaro Tanahashi
SWARでpop countをしよう
SWARでpop countをしよう
Kotaro Tanahashi
Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会
Kotaro Tanahashi
2.2. map reduce and the new software stack
2.2. map reduce and the new software stack
Kotaro Tanahashi
Cythonの一喜一憂
Cythonの一喜一憂
Kotaro Tanahashi
deep learning library coyoteの開発(CNN編)
deep learning library coyoteの開発(CNN編)
Kotaro Tanahashi
情強アルゴリズムDIMSUM
情強アルゴリズムDIMSUM
Kotaro Tanahashi
LBFGSの実装
LBFGSの実装
Kotaro Tanahashi
Fokker–Planck equation and DPD simulations
Fokker–Planck equation and DPD simulations
Kotaro Tanahashi
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用
Kotaro Tanahashi
How nosql fundamentally changed machine learning?
How nosql fundamentally changed machine learning?
Kotaro Tanahashi
More Related Content
More from Kotaro Tanahashi
NIPS Paper Reading, Data Programing
NIPS Paper Reading, Data Programing
Kotaro Tanahashi
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
Kotaro Tanahashi
変数の入れ替え(SWAPPING)で最速の方法は?
変数の入れ替え(SWAPPING)で最速の方法は?
Kotaro Tanahashi
SWARでpop countをしよう
SWARでpop countをしよう
Kotaro Tanahashi
Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会
Kotaro Tanahashi
2.2. map reduce and the new software stack
2.2. map reduce and the new software stack
Kotaro Tanahashi
Cythonの一喜一憂
Cythonの一喜一憂
Kotaro Tanahashi
deep learning library coyoteの開発(CNN編)
deep learning library coyoteの開発(CNN編)
Kotaro Tanahashi
情強アルゴリズムDIMSUM
情強アルゴリズムDIMSUM
Kotaro Tanahashi
LBFGSの実装
LBFGSの実装
Kotaro Tanahashi
Fokker–Planck equation and DPD simulations
Fokker–Planck equation and DPD simulations
Kotaro Tanahashi
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用
Kotaro Tanahashi
How nosql fundamentally changed machine learning?
How nosql fundamentally changed machine learning?
Kotaro Tanahashi
More from Kotaro Tanahashi
(13)
NIPS Paper Reading, Data Programing
NIPS Paper Reading, Data Programing
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
変数の入れ替え(SWAPPING)で最速の方法は?
変数の入れ替え(SWAPPING)で最速の方法は?
SWARでpop countをしよう
SWARでpop countをしよう
Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会
2.2. map reduce and the new software stack
2.2. map reduce and the new software stack
Cythonの一喜一憂
Cythonの一喜一憂
deep learning library coyoteの開発(CNN編)
deep learning library coyoteの開発(CNN編)
情強アルゴリズムDIMSUM
情強アルゴリズムDIMSUM
LBFGSの実装
LBFGSの実装
Fokker–Planck equation and DPD simulations
Fokker–Planck equation and DPD simulations
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用
How nosql fundamentally changed machine learning?
How nosql fundamentally changed machine learning?
recurrent models of visual attentionメモ
1.
Recurrent Models of
Visual Attention 1 棚橋 耕太郎 Mnih, Volodymyr, Nicolas Heess, and Alex Graves. "Recurrent models of visual attention." Advances in Neural Information Processing Systems. 2014.
2.
背景 1. CNNの問題点: 画像の解像度を下げても学習 と予測の計算量が大きいので計算に時間が かかる
2. 人間は視界に映る全ての映像を処理せず, 選択的に次に見る部分を決めていく 3. Task-‐drivenな方法で画像の注目部分を動か していくモデルを作成すれば計算量削減/調 整できるのでは?
3.
The Recurrent Attention
Model (RAM) A: 中心点lt−1 において元画像xtから複数の解像度(波長)の画像を得る. B: 中心点lt−1 と画像xtは個別に隠れ層へ線形にマッピングされ統合される. C: 隠れ層から次に見る位置ltを出力して,中心点をltに動かす.
4.
model詳細 2つのAction 1. 次に見る窓の位置ltを決める
2. 状態に対するaction(識別タスクの場合だと softmaxでペナルティ/報酬を与える) いつ動きを止めるか? 窓を動かす回数が多くなるとペナルティを課 す
5.
実際の視線の動き 数字を見るように視線が動いている Cluttered non-‐centeredなタスクにおいてCNNより3%良い結果 →ノイズに対してロバスト,実データに強い
6.
動く環境の場合 ゲーム”Catch”をやらせる ルール: ボールをキャッチするシンプルなゲーム
・キャッチできたら0点 ・できなかったら1点 最終的な点数のみを報酬として与えた. 24px 24px . 動かしてキャッチする 6px 視界
7.
Further discussion 1. 無駄なところを見ないので計算量が少ない
2. 窓のサイズなどを変えることで計算量をコン トロールできる 今後は映像の識別などに利用できると期待される ロボットのカメラのうごきに利用できそう
Download now