視覚を持ったエージェントに自然言語で屋内のある地点からある地点までの道順を教えると、エージェントが頑張って自力でゴールまでたどり着けるというのが Vision-Language Navigation の目的です。
この論文はCVPR 2019のStudent Best Paperに輝いた論文で、上記の問題に対して局所的パスと大局的パス両方にクロスモーダルなマッチングを与えるReinforced Cross-Modal Matchingと未知環境下で自己教示的に模倣学習するSelf-Supervised Imitation Learningを提案しています。Vision & Languageや強化学習、模倣学習、自己教示など今注目をあびる要素の集大成みたいな論文ですね。