SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
ViNG: Learning Open-World Navigation with
Visual Goals
Jumpei Arima
書誌情報
• タイトル:ViNG: Learning Open-World Navigation with Visual Goals
• 著者 : Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine
– UC Berkeley, Carnegie Mellon University
• arxiv : https://arxiv.org/abs/2012.09812
• project page : https://sites.google.com/view/ving-robot
• 概要
– Open-Worldでoffline dataから学習できるVisual Navigationシステム(VinG)を提案
– BADGR(2020/4にDL輪読会で発表した内容*)と比べてGPS情報なしで
より長距離のナビゲーションが可能になった
2*https://www.slideshare.net/DeepLearningJP2016/dlbadgr-an-autonomous-selfsupervised-learningbased-navigation-system
Introduction
3
• 実世界でのNavigation研究
– 1980年後半頃から研究が盛んになる
– 2000年代にSLAM、Planningの技術が確立してくる
• 現在の自動運転のベース
• LiDARなどの空間構造のセンサ情報から自己位置を推定し、planningを行う
• 幾何学的情報から障害物を判断できる前提がある。
– 高い草は実際は通れる。
– 同じ地面でも芝の上は通ってほしくない。
など、車道以外の実世界での課題は多い
• 2016年頃から、深層学習ベースの手法が多く研究されるようになる。
– RL, ILで simulation上や、屋内環境などの短距離のnavigation性能が上がってきている
– 一方長距離のナビゲーションの学習はほぼできていない。
Related Works
• Planning手法と学習を組み合わせることで、長期的なナビゲーションタスク
に対処する手法がここ数年出てきた。
– 短期的なナビゲーションを学習ベースで対応
– 長期的なナビゲーションはnon-metricなトポロジカルグラフを
planningすることで対応
→マップ作成とEnd2Endでの学習を回避することができた。
– 正確なシミュレータを必要とする
– grip worldなど簡易的な行動空間
– オンラインデータを必要とする学習アルゴリズム
4
問題設定
5
• ビジュアルナビゲーション
– 画像によるゴール指定
– Open-World環境
– 自己教師あり
– シミュレーションなし
– オンラインデータなし
– 空間情報なし
• アプリケーション
– 配達
– 警備
Proposed Method
6
• 2つの画像間の
– Traversability function(T ): ナビゲーションの走破可能性
– Relative pose predictor(P ): 相対位置
をDNNでモデル化し学習する。
• T を用いてトポロジカルマップを生成しPlanningしてwaypointを生成
• WaypointからP を用いてコントロール
Proposed Method
• Traversability fuction(T )の学習
観測間が走破可能かを予測
1. 教師あり学習
• 観測間のステップ数を予測
• データ収集方策に依存するため、過大評価す
る可能性がある
2. TD学習
• 本研究の実験ではあまり効果なし
• 理論的には最短経路距離に収束する
※Key idea (Negative Mining)
• 分布シフトに対応するため
異なる軌跡からとった観測をデータ
セットに追加して学習
7
Traversability fuction(T )
• Mobilenet encoder + FC*3
• ステップ数d(1,2,…,dmax)
– dmax=50
• 交差エントロピーloss
Proposed Method
• Relative pose predictor(P )の学習
観測間の相対位置を予測
– 教師あり学習
• オドメトリ情報から自動でラベル付け
– Traversability functionと違い
negative miningをしない
(D+のデータのみを用いる)
8
Relative pose predictor(P )
• Mobilenet encoder + FC*3
• (Δx, Δy, Δθ ) を予測
• L2 loss
Proposed Method
• Deploying ViNG
1. 観測データから学習したT を使って
トポロジカルグラフを生成
※Key idea (Graph pruning)
データ数に応じて二次関数的にノードが増加す
るのでT を使って疎にする
→走破可能なエッジは追加されない
2. 現在の観測とゴール観測をグラフに追加し
Dijkstra法でPlanning
3. waypointの相対位置をP を使って算出
4. 相対位置に向かってPD制御で移動 9
Experiments
提案手法(ViNG)の性能を示すため以下の3つを検証する
1. ViNGが他のofflineデータから学習する他の
Goal-conditioned Visual Navigation手法に比べて性能がどうか?
2. ViNGが未知環境に対応できるか。
また、どのくらいで適応できるようになるか?
3. ViNGの他のControllerと比べて性能がどうか?
10
Experiments
比較手法
• SPTM:
– Semi-Parametric Topological Memory for Navigation(ICLR2018)
– 密なトポロジカルグラフと観測から行動の出力するController
– 教師あり学習
• off-SoRB:
– Search on the Replay Buffer: Bridging Planning and RL(NeurIPS2019)のoffline RLに拡張バージョン
– RL
• State Estimator
– naïve base line
– 観測から位置を教師あり学習で予測
• Random
11
Experiments
• Dataset
– 約40時間の走行データ
– 実験時はデータ収集時から10ヶ月経っているので
外観が異なる
– simのデータはなし。全て実世界
12
Experiments
13
• ViNGの性能評価(datasetと同じ環境)
• dataset時と季節が違うがViNGは距離が長くても高い成功率
• State Estimateは障害物を考慮しないので障害物があるとぶつかる
• off-SoRBはトポロジカルの精度が低いので長い距離では精度が落ちる
– offlineデータからQ関数を学習するのは困難
– 長い距離では、教師あり学習のSPTMの方が優れている
Experiments
14
• ViNGの未知環境での適応力
– datasetと違う環境4箇所で、1時間のデータ収集しFinetune
• 1時間のデータ収集で適応可能
• Targetデータだけでは精度は下がる
Experiments
15
• Online手法の比較
– online情報を必要とする手法と比較
するためsim(unity)で実験
– ViNGとSoRBは同等の性能が出るが
200時間のonlineデータが必要でかつ
環境ごとに集める必要がある
– PPOは200時間のオンラインデータが
必要だが、30m以降精度が落ちる
(長距離は困難)
Experiments
16
• Application
Conclusion
• 実世界でのgoal-directed visual navigationシステムViNGを提案。
– オフラインデータから自己教師で学習
– 空間情報がなし、シミュレーションなし
– 分布シフトに対応するためのnegativeサンプリングの導入
– トポロジカル上のplanningでGPSなしで長距離navigationを可能になった
– 本手法は、staticなオフラインデータが前提だが
実世界は、大きく観測値の分布が変化する(動的障害物、照明の変化、…)
– 分布シフトによりロバストに対応可能な表現を組み込むことが今後重要になってくる
17
感想
• 問題設定が上手
– Open-Worldで画像上のダイナミクスを学習するのは現状難しいので、より低次元のイベントを予測することで対
応する
• “Model-Based Visual Planning with Self-Supervised Functional Distances”
(https://arxiv.org/abs/2012.15373v1)とか関係してきそう
– 一方オフラインデータから学習するというモチベーションがぶれていない
• End2Endで学習する手法から、Deep以前のロボティクスの技術(planning, filteringなど)との融合により実現
している研究が多くなってきた印象。
– いかに優秀なアルゴリズムを微分可能なモジュールと組み合わせるか
• 学習ベースのnavigation研究ではHabitat Challengeの問題設定で行われることが多い*が、それの
standard手法であるPPOの性能がreal world・長距離でなかなか性能が出ていないのは面白い結果
• 画像のデータから学習でき実際動くのはすごいが、データ収集1hも必要となると従来手法の方がまだ安
定性など見ると良いと思ってしまう
18
*https://docs.google.com/presentation/d/1ptnk1YfCnbvkgWcuhfvwnsmt0k8BwZwD8p40N5LkPMg/edit?usp=sharing

More Related Content

What's hot

【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII
 
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
Deep Learning JP
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
Naoya Chiba
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
文献紹介:YOLO series:v1-v5, X, F, and YOWO
文献紹介:YOLO series:v1-v5, X, F, and YOWO文献紹介:YOLO series:v1-v5, X, F, and YOWO
文献紹介:YOLO series:v1-v5, X, F, and YOWO
Toru Tamaki
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
Deep Learning JP
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
Deep Learning JP
 

What's hot (20)

【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
文献紹介:YOLO series:v1-v5, X, F, and YOWO
文献紹介:YOLO series:v1-v5, X, F, and YOWO文献紹介:YOLO series:v1-v5, X, F, and YOWO
文献紹介:YOLO series:v1-v5, X, F, and YOWO
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 

[DL輪読会]ViNG: Learning Open-World Navigation with Visual Goals

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ ViNG: Learning Open-World Navigation with Visual Goals Jumpei Arima
  • 2. 書誌情報 • タイトル:ViNG: Learning Open-World Navigation with Visual Goals • 著者 : Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine – UC Berkeley, Carnegie Mellon University • arxiv : https://arxiv.org/abs/2012.09812 • project page : https://sites.google.com/view/ving-robot • 概要 – Open-Worldでoffline dataから学習できるVisual Navigationシステム(VinG)を提案 – BADGR(2020/4にDL輪読会で発表した内容*)と比べてGPS情報なしで より長距離のナビゲーションが可能になった 2*https://www.slideshare.net/DeepLearningJP2016/dlbadgr-an-autonomous-selfsupervised-learningbased-navigation-system
  • 3. Introduction 3 • 実世界でのNavigation研究 – 1980年後半頃から研究が盛んになる – 2000年代にSLAM、Planningの技術が確立してくる • 現在の自動運転のベース • LiDARなどの空間構造のセンサ情報から自己位置を推定し、planningを行う • 幾何学的情報から障害物を判断できる前提がある。 – 高い草は実際は通れる。 – 同じ地面でも芝の上は通ってほしくない。 など、車道以外の実世界での課題は多い • 2016年頃から、深層学習ベースの手法が多く研究されるようになる。 – RL, ILで simulation上や、屋内環境などの短距離のnavigation性能が上がってきている – 一方長距離のナビゲーションの学習はほぼできていない。
  • 4. Related Works • Planning手法と学習を組み合わせることで、長期的なナビゲーションタスク に対処する手法がここ数年出てきた。 – 短期的なナビゲーションを学習ベースで対応 – 長期的なナビゲーションはnon-metricなトポロジカルグラフを planningすることで対応 →マップ作成とEnd2Endでの学習を回避することができた。 – 正確なシミュレータを必要とする – grip worldなど簡易的な行動空間 – オンラインデータを必要とする学習アルゴリズム 4
  • 5. 問題設定 5 • ビジュアルナビゲーション – 画像によるゴール指定 – Open-World環境 – 自己教師あり – シミュレーションなし – オンラインデータなし – 空間情報なし • アプリケーション – 配達 – 警備
  • 6. Proposed Method 6 • 2つの画像間の – Traversability function(T ): ナビゲーションの走破可能性 – Relative pose predictor(P ): 相対位置 をDNNでモデル化し学習する。 • T を用いてトポロジカルマップを生成しPlanningしてwaypointを生成 • WaypointからP を用いてコントロール
  • 7. Proposed Method • Traversability fuction(T )の学習 観測間が走破可能かを予測 1. 教師あり学習 • 観測間のステップ数を予測 • データ収集方策に依存するため、過大評価す る可能性がある 2. TD学習 • 本研究の実験ではあまり効果なし • 理論的には最短経路距離に収束する ※Key idea (Negative Mining) • 分布シフトに対応するため 異なる軌跡からとった観測をデータ セットに追加して学習 7 Traversability fuction(T ) • Mobilenet encoder + FC*3 • ステップ数d(1,2,…,dmax) – dmax=50 • 交差エントロピーloss
  • 8. Proposed Method • Relative pose predictor(P )の学習 観測間の相対位置を予測 – 教師あり学習 • オドメトリ情報から自動でラベル付け – Traversability functionと違い negative miningをしない (D+のデータのみを用いる) 8 Relative pose predictor(P ) • Mobilenet encoder + FC*3 • (Δx, Δy, Δθ ) を予測 • L2 loss
  • 9. Proposed Method • Deploying ViNG 1. 観測データから学習したT を使って トポロジカルグラフを生成 ※Key idea (Graph pruning) データ数に応じて二次関数的にノードが増加す るのでT を使って疎にする →走破可能なエッジは追加されない 2. 現在の観測とゴール観測をグラフに追加し Dijkstra法でPlanning 3. waypointの相対位置をP を使って算出 4. 相対位置に向かってPD制御で移動 9
  • 10. Experiments 提案手法(ViNG)の性能を示すため以下の3つを検証する 1. ViNGが他のofflineデータから学習する他の Goal-conditioned Visual Navigation手法に比べて性能がどうか? 2. ViNGが未知環境に対応できるか。 また、どのくらいで適応できるようになるか? 3. ViNGの他のControllerと比べて性能がどうか? 10
  • 11. Experiments 比較手法 • SPTM: – Semi-Parametric Topological Memory for Navigation(ICLR2018) – 密なトポロジカルグラフと観測から行動の出力するController – 教師あり学習 • off-SoRB: – Search on the Replay Buffer: Bridging Planning and RL(NeurIPS2019)のoffline RLに拡張バージョン – RL • State Estimator – naïve base line – 観測から位置を教師あり学習で予測 • Random 11
  • 12. Experiments • Dataset – 約40時間の走行データ – 実験時はデータ収集時から10ヶ月経っているので 外観が異なる – simのデータはなし。全て実世界 12
  • 13. Experiments 13 • ViNGの性能評価(datasetと同じ環境) • dataset時と季節が違うがViNGは距離が長くても高い成功率 • State Estimateは障害物を考慮しないので障害物があるとぶつかる • off-SoRBはトポロジカルの精度が低いので長い距離では精度が落ちる – offlineデータからQ関数を学習するのは困難 – 長い距離では、教師あり学習のSPTMの方が優れている
  • 14. Experiments 14 • ViNGの未知環境での適応力 – datasetと違う環境4箇所で、1時間のデータ収集しFinetune • 1時間のデータ収集で適応可能 • Targetデータだけでは精度は下がる
  • 15. Experiments 15 • Online手法の比較 – online情報を必要とする手法と比較 するためsim(unity)で実験 – ViNGとSoRBは同等の性能が出るが 200時間のonlineデータが必要でかつ 環境ごとに集める必要がある – PPOは200時間のオンラインデータが 必要だが、30m以降精度が落ちる (長距離は困難)
  • 17. Conclusion • 実世界でのgoal-directed visual navigationシステムViNGを提案。 – オフラインデータから自己教師で学習 – 空間情報がなし、シミュレーションなし – 分布シフトに対応するためのnegativeサンプリングの導入 – トポロジカル上のplanningでGPSなしで長距離navigationを可能になった – 本手法は、staticなオフラインデータが前提だが 実世界は、大きく観測値の分布が変化する(動的障害物、照明の変化、…) – 分布シフトによりロバストに対応可能な表現を組み込むことが今後重要になってくる 17
  • 18. 感想 • 問題設定が上手 – Open-Worldで画像上のダイナミクスを学習するのは現状難しいので、より低次元のイベントを予測することで対 応する • “Model-Based Visual Planning with Self-Supervised Functional Distances” (https://arxiv.org/abs/2012.15373v1)とか関係してきそう – 一方オフラインデータから学習するというモチベーションがぶれていない • End2Endで学習する手法から、Deep以前のロボティクスの技術(planning, filteringなど)との融合により実現 している研究が多くなってきた印象。 – いかに優秀なアルゴリズムを微分可能なモジュールと組み合わせるか • 学習ベースのnavigation研究ではHabitat Challengeの問題設定で行われることが多い*が、それの standard手法であるPPOの性能がreal world・長距離でなかなか性能が出ていないのは面白い結果 • 画像のデータから学習でき実際動くのはすごいが、データ収集1hも必要となると従来手法の方がまだ安 定性など見ると良いと思ってしまう 18 *https://docs.google.com/presentation/d/1ptnk1YfCnbvkgWcuhfvwnsmt0k8BwZwD8p40N5LkPMg/edit?usp=sharing