Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation（関東CV勉強会 CVPR 2019 読み会）

CVPR 2019 読み会
Reinforced Cross-Modal Matching and
Self-Supervised Imitation Learning for
Vision-Language Navigation
牛久祥孝
losnuevetoros

以上、現地報告でした。

お前は誰だ？
～2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4～ NTT コミュニケーション科学基礎研究所

お前は誰だ？
～2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4～2016.3 NTT コミュニケーション科学基礎研究所
2016.4～東京大学大学院情報理工学系研究科
知能機械情報学専攻講師 (原田・牛久研究室)

自己紹介
2014.4 博士(情報理工学)、東京大学
2014.4～2016.3 NTT CS研研究員
2016.4～東京大学講師 (原田・牛久研究室)
2016.9～産業技術総合研究所協力研究員
2016.12～国立国語研究所共同研究員
2018.4～オムロンサイニックエックス株式会社
技術アドバイザ（NEW!!）
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on and
yellow snow pants.
A zebra standing in a field with a
tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near a
train station.

自己紹介
2014.4～2016.3 NTTコミュニケーション科学基礎研究所研究員
2016.4～2018.9 東京大学講師 (原田・牛久研究室)
2016.12～2018.9 国立国語研究所共同研究員
2018.4～2018.9 オムロンサイニックエックス株式会社技術アドバイザ
Principal Investigator
2019.1～株式会社Ridge-I 社外 Chief Research Officer
yellow snow pants.
[Shin+, BMVC 2016]
train station.

自己紹介
2014.4～2016.3 NTTコミュニケーション科学基礎研究所研究員
2016.4～2018.9 東京大学講師 (原田・牛久研究室)
2016.12～2018.9 国立国語研究所共同研究員
2018.4～2018.9 オムロンサイニックエックス株式会社技術アドバイザ
Principal Investigator
2019.1～株式会社Ridge-I 社外 Chief Research Officer
yellow snow pants.
[Shin+, BMVC 2016]
train station.
いよっ！job-hopp…
関東CV勉強会のおかげで
転職も兼職もできました！

現職sに至った経緯は？

大企業/大学における研究者人生の不安
• 局所的なキャリアパスの不安
– 今やっていることはキャリアに資するだろうか
cf. 削られる研究時間、増える雑用
• 大域的なキャリアパスの不安
– いま上にいる人のキャリアが正しいのだろうか
cf. 仕事できない上司、人間性のない教授
• 新たな社会でのキャリアに対する不安
– そもそも平成の社会じゃなくて令和の社会だし
展示準備して。特許書いて。教育
して。事業所行って。（中略）
余った時間でもちろん研究して。

言語指示を受けたエージェントの不安
• 局所的な移動パスの不安
– 今の動作はゴールに近づく動作だろうか
cf. 言語による指示と今の視界との関連付け
• 大域的な移動パスの不安
– ゴールに辿り着いたパスが正しいのだろうか
cf. ランダムに動いてもゴールには辿り着く
• 未知の環境での移動に対する不安
– そもそも既知の環境じゃなくて未知の環境だし
階段を上がって右を向いて。
バスルームを通り過ぎてベッドの
そばで止まって。

言語指示を受けた移動ロボットの不安
• 局所的な移動パスの不安
– 今の動作はゴールに近づく動作だろうか
cf. 言語による指示と今の視界との関連付け
• 大域的な移動パスの不安
– ゴールに辿り着いたパスが正しいのだろうか
cf. ランダムに動いてもゴールには辿り着く
• 未知の環境での移動に対する不安
– そもそも既知の環境じゃなくて未知の環境だし
階段を上がって右を向いて。
バスルームを通り過ぎてベッドの
そばで止まって。
Vision-Language Navigation＝人生
視覚と自然言語によるエージェントのナビゲーション

本日の論文
Vision-Language Navigation (VNL) タスクのために
• 局所的/大域的な移動パスのマッチング
• 未知環境下での自己教示模倣学習
→VNLタスクでState-of-the-art達成
CVPR 2019 Best Student Paper Award

Room-to-Room (R2R) タスク
実体をもつエージェントが
• 言語によるインストラクション 𝜒 = 𝑥1, 𝑥2, … , 𝑥 𝑛 を受け
• 𝑡番目のカメラ位置𝑠𝑡に基づいて、シミュレータから
エージェントの見える光景 𝑣 𝑡,𝑗 𝑗=1
𝑚
(𝑚はカメラ角度)を受け
• 行動（移動）𝑎 𝑡を決定
「停止」を選ぶまで続ける
行動
インストラクション
ゴールまでの距離
・3m未満になったら成功
・エージェントは知らない数字

実世界3次元データセットの活用
• 他のRGBDデータだと…
– NYUv2, SUN RGB-D, ScanNet
– 動画像なのでパスの選択肢がほとんどない
• Matterport 3D [Chang+, 3DV 2017]
– 90の建造物で総計10,800点のパノラマRGBD画像を収集
– 各点で18方向のRGBD画像を収集→パノラマ化
– 平均2.25m間隔、人の目線の高さ、カメラポーズも記録

Matterport3D Simulator
観測データ
• 3次元位置
観測地点に量子化
• 水平/鉛直方向のカメラ角度
• 𝑡ステップ目のRGB画像（観測）
本来Matterport3DはDepth付きだが、今回はまずRGBのみ
エージェントの行動
• 視界の中から次の地点を選択したり
• カメラ角度を更新したり

Matterport3D Simulator のグラフ表現
各位置をノードとする重み付き無向グラフ
• 5m以上離れたエッジや障害物を挟むエッジは削除
• エッジが張られているノードのうち、現在の視界
に含まれるノードに移動

R2R データセット
Amazon Mechanical Turk で収集
• 7189経路を抽出
– 5m以上離れた2地点
→平均10m程度
– 最低4～6回移動
• 経路あたり3つずつの
インストラクションを
収集
– 平均29単語
(類似課題に比べて長め)
– 約3100語彙
(類似課題に比べて少量)

集められたインストラクションの例
• Pass the pool and go indoors
using the double glass doors.
Pass the large table with
chairs and turn left and wait
by the wine bottles that have
grapes by them.
• Go up the stairs and turn
right. Go past the bathroom
and stop next to the bed.

Speaker-Follower モデル
• データセット提案論文 [Anderson+, CVPR 2018]：
– 道順を聞いて動くエージェント (Follower) のみモデル
– Follower は正面の画像のみ見ている設定
• 本研究：
– 道順そのものを新たな経路から生成できるエージェント
(Speaker) を用意→訓練データを拡張
– Follower は360°画像を利用
[Fried+, NeurIPS 2018]

本論文の課題意識と解決策

局所的な移動パスの不安
画像と言語指示から推論を進めなければならない
• 指示と今の視覚的状況を結び付けないといけない
• 全体の移動経路と指示のマッチングも必要
Instruction
1. Turn right and head towards the kitchen.
2. Then turn left, pass a table and enter the hallway.
3. Walk down the hallway and turn into the entry
way to your right without doors.
4. Stop in front of the toilet.
Local visual scene

大域的な移動パスの不安
フィードバックが粗い
• 目的地の近くに到達したら成功
• Path Bは目的地の手前で止まったので失敗
• Path Cはランダムに動いているだけだが成功
→ 正解Path Aに対する類似性を用いるべきでは

未知の環境での移動に対する不安
未知の環境下だと既知の環境下の様に振舞えない
cf. [Tan+, NAACL 2019] ← arXiv 2019年4月公開
• 同様の動機からEnvironmental Dropoutを提案
• 実は本論文を少し上回る性能を達成している
（本論文のarXiv公開は2018年11月）

本研究の貢献点
• Reinforced Cross-Modal Matching (RCM)
– 局所的+大域的な移動パスの不安に対応
– Reasoning Navigator
各指示と周囲画像の局所的マッチング
– Matching Critic
指示全体と移動経路の大域的マッチング
• Self-Supervised Imitation Learning (SIL)
– 未知の環境での移動に対する不安に対応
– 既知環境のインストラクションによって
未知環境下でReplay Bufferを構築
→自己教示＋模倣学習に利用

Reinforced Cross-Modal Matching

Cross-Modal Reasoning Navigator
インストラクション 𝒘𝒊 𝒊=𝟏
𝒏
と各時点𝒕での視覚情報（パノラマ
画像の各方向の視界の集合） 𝒗 𝒕,𝒋 𝒋=𝟏
𝒎
から行動𝒂 𝒕を計算したい

1. パノラマ画像に𝑚個ある視点の画像に対して、履歴の文脈
ℎ 𝑡からアテンションを用いて画像特徴量𝑣 𝑡を算出

2. 画像特徴量と直前の行動𝑎 𝑡−1をLSTMに入力してℎ 𝑡を更新

3. 更新されたℎ 𝑡から、インストラクションの各単語 𝑤𝑖 𝑖=1
𝑛
の
アテンションを計算
→テキストの文脈ベクトル𝑐𝑡
𝑡𝑒𝑥𝑡
を算出

4. テキストの文脈ベクトル𝑐𝑡
𝑡𝑒𝑥𝑡
からパノラマ画像に𝑚個ある
視点の画像に対するアテンションを計算
→画像の文脈ベクトル𝑐𝑡
𝑣𝑖𝑠𝑢𝑎𝑙
を算出

5. 全文脈ベクトルℎ 𝑡, 𝑐𝑡
𝑡𝑒𝑥𝑡
, 𝑐𝑡
𝑣𝑖𝑠𝑢𝑎𝑙
と𝑘番目の方向へ移動する先
の画像および角度の正弦・余弦をつないだ𝑢 𝑘の双線形積
→行動𝑎 𝑡の決定

Cross-Modal Matching Critic
1. 移動パス𝜏 = 𝑠1, 𝑎1 , 𝑠2, 𝑎2 , … , 𝑠 𝑇, 𝑎 𝑇 をReasoning
Navigatorから算出
2. 移動パス𝜏からインストラクション𝜒の再構成を試みた
際の確率𝑅𝑖𝑛𝑡𝑟 = 𝑝 𝛽(𝜒|𝜏)をIntrinsic Rewardとして利用
なおIntrinsic Rewardに対してExtrinsic Reward 𝑅 𝑒𝑥𝑡𝑟は
• 時点𝑡→時点𝑡 + 1で目的地までの距離が縮んだ量𝑟 𝑠𝑡, 𝑎 𝑡
• 時点𝑇で目的地までの距離が一定以下なら1、それ以外は0
• 時点𝑡以降の𝑟𝑡(𝑠𝑡, 𝑎 𝑡)を減衰率𝛾を掛けながら𝑇まで足した和
の総和

Self-Supervised Imitation Learning
• 通常のVLN：既知環境で学習、未知環境で評価
• 本論文：既知環境で学習後、評価前に未知環境を探索（教
師データ無し）
1. 出発/目的地点のないインストラクション𝜒をサンプリング
2. Reasoning Navigator 𝝅 𝜽から𝐾本の経路を算出
3. Matching Critic 𝑉𝛽を最大にするパス 𝜏をReplay Bufferへ
4. Replay Bufferにあるデータを用いてNavigatorを更新

実験設定
R2Rデータセットを利用
• 7189経路を抽出
• 4つに分割
– 既知&訓練データ+既知&検証データ
– 未知&検証データ+未知&評価データ
提案手法の学習方法
• 最初はアテンション付き翻訳モデルとして最尤推定による訓練
• 途中から提案するRCMとSILによる訓練に切り替え
評価指標
• PL: Path Length 生成パスの長さ
• NE: Navigation Error 生成パスの終点とゴールの間の長さ
• OSR: Oracle Success Rate パスがゴールの近くを通る確率
• SR: Success Rate パスがゴールの近くで止まる確率
• SPL: SR weighted by inverse PL PLの逆数で重みづけたSR
1. Turn right and head towards the kitchen.
2. Then turn left, pass a table and enter the
hallway.
3. Walk down the hallway and turn into the
entry way to your right without doors.
4. Stop in front of the toilet.

定量比較1
未知環境下での評価データによる比較
PL: Path Length
NE: Navigation Error
OSR: Oracle Success Rate
SR: Success Rate
SPL: SR weighted by inverse PL

定量比較1
PL: Path Length
NE: Navigation Error
SR: Success Rate
データセット提案論文から
• ランダムなパス
• アテンション付き翻訳モデル

定量比較1
PL: Path Length
NE: Navigation Error ()
SR: Success Rate
関連研究
• Spearker-Followerが今のSOTA
• beam searchは各時点のパスを複数蓄積
成功率(OSR, SR)が上昇するがPLも増大

定量比較1
未知環境下でのテストデータによる比較
PL: Path Length
SR: Success Rate
提案手法
• RCMとRCM+SIL (train) が関連研究と同条件（テストデータを見ないで学習）
SOTA達成 & 訓練データでの自己教示模倣学習(SIL)も効果アリ
• RCM+SIL (unseen) はテストデータを見るので条件が異なるが効果大
関連研究
• Spearker-Followerが今のSOTA
• beam searchは各時点のパスを複数蓄積
成功率(OSR, SR)が上昇するがPLも増大

定量比較2
既知環境/未知環境でのAblation Study
PL: Path Length
SR: Success Rate

定量比較2
PL: Path Length
SR: Success Rate
関連研究 vs. 提案手法
• 同一条件下での比較
• 特に未知環境で提案手法の優位性を確認

定量比較2
PL: Path Length
SR: Success Rate
SIL→𝑅𝑖𝑛𝑡𝑟→𝑅 𝑒𝑥𝑡𝑟→Navigatorの順に除去
• 5番目は単純なアテンション付き翻訳モデル
• 特に未知環境のSRで各モジュールが大事

定量比較2
PL: Path Length
SR: Success Rate
SILを既知環境で実行 vs. 未知環境で実行
• 既知環境と未知環境の両方で精度が改善
• 特に既知環境と未知環境のギャップが縮小

実行結果1
• Exit the door and turn left towards the staircase.
• Walk all the way up the stairs, and stop at the top of the stairs.

実行結果1
• Walk all the way up the stairs, and stop at the top of the
stairs.

実行結果1
• Walk all the way up the stairs, and stop at the top of the
stairs.
Intrinsic Reward: 0.53 Result: Success (error = 0m)

実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.

実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.
Intrinsic Reward: 0.54 Result: Failure (error = 5.5m)
さっき見切れていた laundry room を見過ごしていた

まとめ
Vision-Language Navigation (VNL) のために
• Reinforced Cross-Modal Matching (RCM)
局所的/大域的な移動パスのマッチング
• Self-Supervised Imitation Learning (SIL)
未知環境下での自己教示模倣学習
CVPR 2019 Best Student Paper Award
• 同様の動機の論文でSOTA更新済み[Tan+, NAACL 2019]
• ただしこちらはBest Paperではない（よいこと）

さいごに
The 1st CVPR 2019 Workshop on Computer Vision After 5 Years

Cross-Modal Matching Criticも使っている
Cycle consistencyといえばコレ！

過去の後悔
Graphical Model: We should have never gone there!
ConvNets: We should have gone there earlier!

次の5年間の(CVの)ために
Potential Liabilities / Future Regrets に基づいて
選ばれたトピックの一つが

Vision + Language…?
For x = 0 to 99,
– CVPR 20xx: here is a great new Vision+Language
dataset everyone should use!!!
– CVPR 20xx+1: oops, nearest neighbors, blind
baselines bet everything…

たしかに。
ただEfros先生も
“Controversial, but love to be proven wrong!”
と言っているので頑張りましょう

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation（関東CV勉強会 CVPR 2019 読み会）

More Related Content

What's hot

Similar to Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation（関東CV勉強会 CVPR 2019 読み会）

More from Yoshitaka Ushiku

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation（関東CV勉強会 CVPR 2019 読み会）