【DL輪読会】Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Self-Motivated Communication Agent for
Real-World Vision-Dialog Navigation
発表者: 阿久澤圭 (松尾研D3)

書誌情報
• タイトル：Self-Motivated Communication Agent for Real-World
Vision-Dialog Navigation
• 著者：Yi Zhu, Yue Weng, Fengda Zhu, Xiaodan Liang, Qixiang Ye,
Yutong Lu, Jianbin Jiao
• Sun Yat-sen University, Noah s Ark Lab, Huawei Technologies, 他
• 発表：ICCV2021
• 概要：アノテーションなしで自問自答を行うナビゲーションエージェント

背景
• Vision-Dialog Navigation（VDN）：
• 対話履歴を訓練データとして利用するナビゲーション
• エージェントの目的：特定の物体（ターゲット）へ到達
• 対話履歴（Dialog）：
• クラウドソーシングによって収集された訓練データ
• ターゲットへの道筋を知るAnswerと，ナビゲーション
を行うQuestionerの二人の人間が協調して作成

背景
• VDNの既存研究：会話履歴の訓練データを様々な方法で利用する
• [Thomason+2020] 会話履歴をsequence-to-sequenceの方策への入力に利用
• [Roman+2020] 会話履歴で言語モデルを事前訓練 -> 各時刻ごとに会話を生成
• [Nguyen+2019] 決められた領域にエージェントが移動するとオラクルからヒントが貰える
• VDNの既存研究の限界：
• オラクルとのコミュニケーションが柔軟でない（例：事前に定義した場所でのみ質問できる
• 高価な対話アノテーションを必要とする

関連研究：Cooperative Vision-and-Dialog Navigation Dataset
(CVDN) [Thomason+2020]
• CVDN：人間の対話を元にしたナビゲー
ションデータセット
• クラウドソーシングにより作成
• 目的：ナビゲーションにおいてエージェ
ントと人間の協調を扱う
• c.f. Vison-and-language
navigation：対話=協調を扱わない
• 限界：対話の内容や対話の行われる位置
が限られている

関連研究：HANNA [Nguyen+2019]
• HANNA：特定の位置にいくと，オラクルがサブタスク（現在地とゴールまでの中間地点へ向かう
言語指示）を教えてくれるシミュレータ環境
• 限界：特定の位置でしかオラクルとのコミュニケーションを行えない，シミュレータの作成コスト

研究目的・提案内容など
• 目的：
• 適応的にコミュニケーションを取るエージェントを開発したい
• 人手によるアノテーションはなるべく減らしたい
• 提案：オラクルに対して，いつ，どのような質問を行うかを学習するエージェント
• 質問文：有益なフィードバックを得るための自然言語による質問
• WeTAモジュール：オラクルへの質問の有無を選択
• WaTAモジュール：オラクルへの質問内容を決定
• 学習方法：リッチな対話履歴を利用せずに学習（発表者的見解：self-supervised）

問題設定
• Notation：
• ターゲット：ナビゲーションのゴールに相当する物体
• 観測：N個の方角についての画像特徴量（Resnetの中間層の出力）
• アクション：視野内のノードへの移動
• 学習：強化学習（RL）＋模倣学習（IL）
• つまり，エキスパートの軌道も得られるし，シミュレータ内でのRLも可能
t0
Xt = {xi,t}N=36
i=1
at

提案手法：全体像
① Wether To Ask (WeTA)：質問をするかどうかの判定
② What To Ask (WaTA)：質問内容の決定
③ Action Decoder：ナビゲーションのための移動位置を決定する方策
① ②
③

Whether to Ask
• 入力：現在の状態（過去の画像観測と
ターゲットなどの埋め込み）
• 出力：質問を行うかどうかのBinary
• 教師データ：アクションのエントロピー
=> アクションの不確実性が高いと質問
• 目的関数：
ht
bt
yt = onehot([H(pa
t ) < ϵ]+)
argminπϕ
LWeTA(bt, yt; πϕ) = − 𝔼yt
[log bt]

What to Ask: 質問候補生成
• 前提：エージェントは様々な方角について合計N=36個の画像観測を持つ
• 観測
• 訓練するモデル：を入力に，質問文を出力するエンコーダーデコーダーモデル
• Ground Truthの質問文の作り方：
• 手順1：各画像観測にobject localization networkを適用
=> 物体名[Obj]と方角[Dir]を取得
• 手順2：テンプレートを元にN個の質問候補を生成
• e.g., Shoaled I go [Dir] to the [Obj]?
Xt = {xi,t}N
i=1
xi,t ci,t
xi,t

What to Ask：質問候補からの選択
• N個の質問候補について，どれを実際に利用するかのスコアベクトルを算出
• Language Information: 質問候補の埋め込みとターゲット埋め込みの相関
• Vision Information: 質問候補の埋め込みと画像観測の相関
aQ
t
Dt t̃0
Dt xt,i ∈ Xt

What to Ask：回答文について
• 回答スコアベクトル：N個の質問候補について，yesかnoかで答える
• 計算方法：未来の観測情報と質問文の類似度の計算
• 例えば， Shoaled I go [Dir] to the [Obj]? の質問が正しいかどうか
は，未来の観測を見ればわかるはず
aA
t

What to Ask：学習
• 質問スコアベクトルと回答スコアベクトルのKL距離最小化
• 学習初期は，回答スコアベクトルが教師となる
• 学習後は，質問スコアベクトルが，各質問の確信度を表現する

Where to Go
• 方策の入力：履歴 , アクション，観測，移動可能な位置
• 履歴：質問スコアが最も高い質問文の特徴量を利用して更新
ht at−1 Xt Xt
dt,i

最適化
• 強化学習と模倣学習を組み合わせて行う
• 模倣学習：WeTA, WaTA, ナビゲーション方策の訓練
• 強化学習：WeTA, ナビゲーション方策の訓練

実験
• データセット：CVDN + REVERIE
• どちらも室内でのナビゲーション
• CVDNでは対話履歴，REVERIEでは言語指示が与えられる
• 評価指標：
• Goal Progress ：ゴールに向けて何m近づいたか
• Success Rate：タスクの達成率

Ablation Study: WeTA
• Non-learning Agentとの比較：
=> WeTAを学習する方が良い
• Learning Agent間の比較：
=> 提案アーキテクチャが良い

Ablation Study: WaTA
• ベースラインRMM：質問文をエンコーダー・デコーダーで生成
• テンプレートを使った提案手法の方が性能がよい

Ablation Study: WeTA and WaTA
• WeTAやWaTAを学習しない場合の性能への影響

質問文の正しさ
• 訓練済みモデルでは，62.4%の質問文が，ターゲットへの方向とマッチ

他手法との比較：CVDN
• 下3つはDialogを利用した手法
• 提案手法は，Dialogを利用しない（ターゲットの情報しか使わない）にもかかわ
らず同程度の精度

他手法との比較：REVERIE
• 既存手法は言語指示を
利用
• 提案手法はtargetのみ
を利用
• 提案手法が最も良い

定性評価
• ナビゲーションの各時刻で，質問を行う確率と報酬
• 「報酬が低い -> 質問を行う -> 報酬が高くなる」というサイクルを確認

定性評価
• 赤線がエージェントの経路
• 途中で重要な質問をいくつか
している

まとめ
• 提案：人手によるアノテーションに依存せず，いつ，どのようなコミュニケーションをと
るかを適応的に決定するエージェント
• 結果：対話履歴データなしで学習し，ターゲットのみを利用するにもかかわらず，対話履
歴データなどを利用したベースライン手法と同程度の性能を達成した
• 発表者の感想：
• 「Vision-and-language + アクション（または時系列）」が得られるような状況で自
己教師あり学習をどう行うべきかという点について，示唆が得られる内容だと感じた
• 提案手法では方策への入力に「最もスコアの高い質問文」を利用している，つまり自問
自答の結果を利用している．他人の回答を利用するような拡張が面白そうだと感じた

参考文献
• JesseThomason, MichaelMurray, MayaCakmak, and Luke Zettlemoyer. Vision-and-
dialog navigation. In Proceedings of the Conference on Robot Learning (CoRL),
pages 394‒406, 2020.
• Homero Roman, Yonatan Bisk, Jesse Thomason, Asli Celikyilmaz, and Jianfeng Gao.
Rmm: A recursive mental model for dialog navigation. In Proceedings of the
Confer- ence on Empirical Methods in Natural Language Processing (EMNLP),
pages 1732‒1745, 2020
• Khanh Nguyen and Hal Daumé III. Help, anna! visual navigation with natural
multimodal assistance via retrospective curiosity-encouraging imitation learning. In
Proceedings of the Conference on Empirical Methods in Natural Language
Processing (EMNLP), pages 684‒695, 2019.

【DL輪読会】Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

Similar to 【DL輪読会】Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (20)

【DL輪読会】Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation