Successfully reported this slideshow.
Your SlideShare is downloading. ×

【DL輪読会】Emergence of maps in the memories of blind navigation agents

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 15 Ad

More Related Content

More from Deep Learning JP (20)

Recently uploaded (20)

Advertisement

【DL輪読会】Emergence of maps in the memories of blind navigation agents

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Emergence of maps in the memories of blind navigation agents Presenter: Manato Yaguchi Hokkaido university, B3
  2. 2. 書誌情報 • タイトル: Emergence of maps in the memories of blind navigation agents (ICLR 2023 Under review) • 著者:不明 • 論文: Emergence of Maps in the Memories of Blind Navigation Agents | OpenReview) • 選定理由:Openreviewでの評価が高い, 生物など他分野との関連を意識した もので興味深かった. 2 ※出典記載のない図は本論文から引用
  3. 3. 概要 • 1人称視点しかも目が見えない設定のagentが、未知の環境の探索を達成で きるのか?=> Yes • 目の見えないagentは何故こんなに良いパフォーマンスを出せるのか=>記 憶、もっと言えば記憶を空間認知や衝突検知に生かすことによる • 環境についてどのような情報を記憶しているのか? => 暗黙的なマップ • マップの生成はタスクに依存するのか? => Yes, マップは探索タスクを解 くために生成される これら4つの質問に対する答えを裏付ける 形で、複数の実験が行われている 3
  4. 4. 背景:生物のもつ学習能力 • 過去の研究からハムスターや狼、チンパンジーやバッタ等の生物は、過去 の経験から、自身のいる環境の空間表現を獲得するといわれている. • 目の見えない環境のmole-rat も同様に空間表現を獲得し、近道をすると いった行動をみせる AIによるagentも同様に、空間表現(地図のようなもの)を獲得する ことで、探索タスクを解いているのだろうか??
  5. 5. 背景:PPO • 方策勾配法は、パラメータの更新時に更新しすぎてしまう場合がある. 𝐿𝑃𝐺 𝜃 = 𝐸𝑡[𝑙𝑜𝑔𝜋𝜃(𝑎𝑡|𝑠𝑡)𝐴𝑡] • PPOは更新の度合いをclipにより調整する 𝐿𝐶𝐿𝐼𝑃 𝜃 = 𝐸𝑡[min(𝑟𝑡 𝜃 𝐴𝑡, 𝑐𝑙𝑖𝑝(𝑟𝑡 𝜃 , 1 − 𝜖, 1 + 𝜖)𝐴𝑡)] 図出典:Federated Reinforcement Learning for Training Control Policies on Multiple IoT Devices 5
  6. 6. 本研究:タスクの概要 • PointGoal Navigation:agentが未知の環境におい て、与えられた相対位置をゴールとするタスク • Agentの得られる情報は、自身のいる座標と方向 のみ(rgb画像やdepth画像は与えられない) • 𝑜𝑡 = 𝑥𝑔, 𝑦𝑔, 𝑧𝑔, 𝑥𝑡, 𝑦𝑡, 𝑧𝑡, 𝜃𝑡 , ℎ𝑡, 𝑐𝑡 = 𝐿𝑆𝑇𝑀(𝑜𝑡, (ℎ𝑡−1, 𝑐𝑡−1)) 6
  7. 7. 本研究:モデルの構造 • Agentが時刻tに観測した情報𝑜𝑡と過去の情報を圧縮したℎ𝑡−1から、行動aを出力. • agentの行動に応じて報酬𝑟𝑡が与えられるので、これが最大となるような方策を学習する • 512次元, 3層のLSTMで構成されている. • 各timestep毎に、lstmのoutputは全結合層を介して、agentの行動と価値関数を出力する 7
  8. 8. 本研究:タスクの実験結果 • タスクの難易度について、「Success」と「SPL」の2つの評価軸で調査 • SPLは最短ルートと比較して、どれくらい効率的にゴールに到達できたか を表す 8
  9. 9. 未知の環境でagentが辿るルート • 結果:Agentが壁沿いに進む様子が観 測された • agentは視覚に関する情報を持ってい ない設定のため、障害物を見つけるに は壁にぶつかるしかない • 唯一与えられる自身の位置に関する情 報は、goalとの相対位置しか与えられ ていない 9
  10. 10. Agentは衝突に関する記憶を学習するのか • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡) から、一つ前のtimestepで取った行動𝑎𝑡−1によって、衝突したかどうかを予測 • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡) を線形分類器に通して分類⇒98%の精度 • 次にl1正則化を加えて、線形分類器を再学習したのち、次元を削除したところ、上図のような4つのク ラスターがみられた(衝突、前進、右回転、左回転に対応) 10
  11. 11. 過去何ステップの情報を記憶するのか • 各時刻tについて、 [𝑜𝑡−𝑘+1, … , 𝑜𝑡] の観測情報を基に、 LSTMの内部状態を構築 • ℎ𝑖, 𝑐𝑖 = LSTM 𝑜𝑖, ℎ𝑖−1, 𝑐𝑖−1 , ℎ𝑡−𝑘, 𝑐𝑡−𝑘 = (0,0) で与えられる. • 横軸は過去何ステップの情報を見たか(k)を表す. • もし、短いタイムステップしか記憶しないのであ れば、成功率はすぐに収束するはず(だけどしない) 11
  12. 12. 記憶が近道に影響を及ぼす • S→Tのタスクを達成後、最終タイムステップの隠れ層を用いて、再度同じタスクを行う • Agentが壁沿いを動く(青線)のに対し、probeはより効率的な動き(紫線)をする • Agentの行動により、空間的表現を獲得しているのではないか(それが近道につながる) 12
  13. 13. 地図の生成 • LSTMの最終層(ℎ𝑇, 𝑐𝑇)を使って、探索タスクに用いた環境のマップを予測 • 事前学習を行ったagentと行っていないagentの予測精度を比較 • 探索時に通っていない場所を、壁が平行であるといった仮定のもと予測している とみられる 13
  14. 14. 記憶しやすい情報としにくい情報 • ある時刻tの隠れ状態(ℎ𝑡, 𝑐𝑡)を用いて、k step前のagentの位置を予測する • 𝑠𝑡−𝑘 = 𝑓𝑘 ℎ𝑡, 𝑐𝑡 + 𝑠𝑡, 𝑠𝑡+𝑘 − 𝑠𝑡+𝑘 / 𝑠𝑡+𝑘 − 𝑠𝑡 を最小化するようなfを学習する • 回り道をした分の情報(Excursion)は、予測しずらい(忘れやすい)ことがいえる 14
  15. 15. まとめと感想 • 目の見えないagentは、未知の環境において、壁沿いを動くという行動をみせた • また、agentが未知の環境において、直接探索していない地点を予測したり、同じタスク を行うと近道をすることができることから、地図に相当するものを形成していると考え られる • 今回のモデルに限らず、得られたモデルの解析方法として、参考になるところが多いと 思った • 特定の生物とより似た条件をagentに付与して、学習過程の解析を見るという方向性で もっと色々できるようになったら面白そう 15

×