The document summarizes a research paper on developing an agent that can autonomously communicate through self-questioning to navigate towards a target object in a real-world environment. The proposed agent contains three modules: 1) a Wether To Ask module that determines whether to ask a question, 2) a What To Ask module that generates and selects question candidates, and 3) an Action Decoder that decides the agent's movement. The agent is trained through imitation and reinforcement learning using vision and language inputs without requiring human-annotated dialog data. Experimental results show the agent can achieve performance on par with baseline methods that use dialog histories when navigating in simulated environments.
12. 提案手法:全体像
① Wether To Ask (WeTA):質問をするかどうかの判定
② What To Ask (WaTA):質問内容の決定
③ Action Decoder:ナビゲーションのための移動位置を決定する方策
① ②
③
13. What to Ask: 質問候補生成
• 前提:エージェントは様々な方角について合計N=36個の画像観測を持つ
• 観測
• 訓練するモデル: を入力に,質問文 を出力するエンコーダーデコーダーモデル
• Ground Truthの質問文の作り方:
• 手順1:各画像観測 にobject localization networkを適用
=> 物体名[Obj]と方角[Dir]を取得
• 手順2:テンプレートを元にN個の質問候補を生成
• e.g., Shoaled I go [Dir] to the [Obj]?
Xt = {xi,t}N
i=1
xi,t ci,t
xi,t
14. What to Ask:質問候補からの選択
• N個の質問候補について,どれを実際に利用するかのスコアベクトル を算出
• Language Information: 質問候補の埋め込み とターゲット埋め込み の相関
• Vision Information: 質問候補の埋め込み と画像観測 の相関
aQ
t
Dt t̃0
Dt xt,i ∈ Xt
15. What to Ask:回答文について
• 回答スコアベクトル :N個の質問候補について,yesかnoかで答える
• 計算方法:未来の観測情報と質問文の類似度の計算
• 例えば, Shoaled I go [Dir] to the [Obj]? の質問が正しいかどうか
は,未来の観測を見ればわかるはず
aA
t
16. What to Ask:学習
• 質問スコアベクトルと回答スコアベクトルのKL距離最小化
• 学習初期は,回答スコアベクトルが教師となる
• 学習後は,質問スコアベクトルが,各質問の確信度を表現する
17. 提案手法:全体像
① Wether To Ask (WeTA):質問をするかどうかの判定
② What To Ask (WaTA):質問内容の決定
③ Action Decoder:ナビゲーションのための移動位置を決定する方策
① ②
③
18. Where to Go
• 方策の入力:履歴 , アクション ,観測 ,移動可能な位置
• 履歴:質問スコアが最も高い質問文の特徴量 を利用して更新
ht at−1 Xt Xt
dt,i
30. 参考文献
• JesseThomason, MichaelMurray, MayaCakmak, and Luke Zettlemoyer. Vision-and-
dialog navigation. In Proceedings of the Conference on Robot Learning (CoRL),
pages 394‒406, 2020.
• Homero Roman, Yonatan Bisk, Jesse Thomason, Asli Celikyilmaz, and Jianfeng Gao.
Rmm: A recursive mental model for dialog navigation. In Proceedings of the
Confer- ence on Empirical Methods in Natural Language Processing (EMNLP),
pages 1732‒1745, 2020
• Khanh Nguyen and Hal Daumé III. Help, anna! visual navigation with natural
multimodal assistance via retrospective curiosity-encouraging imitation learning. In
Proceedings of the Conference on Empirical Methods in Natural Language
Processing (EMNLP), pages 684‒695, 2019.