Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation(関東CV勉強会 CVPR 2019 読み会)

1,257 views

Published on

視覚を持ったエージェントに自然言語で屋内のある地点からある地点までの道順を教えると、エージェントが頑張って自力でゴールまでたどり着けるというのが Vision-Language Navigation の目的です。

この論文はCVPR 2019のStudent Best Paperに輝いた論文で、上記の問題に対して局所的パスと大局的パス両方にクロスモーダルなマッチングを与えるReinforced Cross-Modal Matchingと未知環境下で自己教示的に模倣学習するSelf-Supervised Imitation Learningを提案しています。Vision & Languageや強化学習、模倣学習、自己教示など今注目をあびる要素の集大成みたいな論文ですね。

Published in: Technology
  • Be the first to comment

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation(関東CV勉強会 CVPR 2019 読み会)

  1. 1. CVPR 2019 読み会 Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation 牛久 祥孝 losnuevetoros
  2. 2. 以上、現地報告でした。
  3. 3. お前は誰だ? ~2014.3 博士(情報理工学)、東京大学 • 画像説明文の自動生成 • 大規模画像分類 2014.4~ NTT コミュニケーション科学基礎研究所
  4. 4. お前は誰だ? ~2014.3 博士(情報理工学)、東京大学 • 画像説明文の自動生成 • 大規模画像分類 2014.4~2016.3 NTT コミュニケーション科学基礎研究所 2016.4~ 東京大学 大学院情報理工学系研究科 知能機械情報学専攻 講師 (原田・牛久研究室)
  5. 5. お前は誰だ? ~2014.3 博士(情報理工学)、東京大学 • 画像説明文の自動生成 • 大規模画像分類 2014.4~2016.3 NTT コミュニケーション科学基礎研究所 2016.4~ 東京大学 大学院情報理工学系研究科 知能機械情報学専攻 講師 (原田・牛久研究室)
  6. 6. 自己紹介 2014.4 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~ 東京大学 講師 (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~ 国立国語研究所 共同研究員 2018.4~ オムロンサイニックエックス株式会社 技術アドバイザ(NEW!!) [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  7. 7. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTTコミュニケーション科学基礎研究所 研究員 2016.4~2018.9 東京大学 講師 (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.4~2018.9 オムロンサイニックエックス株式会社 技術アドバイザ 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社Ridge-I 社外 Chief Research Officer [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  8. 8. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTTコミュニケーション科学基礎研究所 研究員 2016.4~2018.9 東京大学 講師 (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.4~2018.9 オムロンサイニックエックス株式会社 技術アドバイザ 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社Ridge-I 社外 Chief Research Officer [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station. いよっ!job-hopp… 関東CV勉強会のおかげで 転職も兼職もできました!
  9. 9. 現職sに至った経緯は?
  10. 10. 大企業/大学における研究者人生の不安 • 局所的なキャリアパスの不安 – 今やっていることはキャリアに資するだろうか cf. 削られる研究時間、増える雑用 • 大域的なキャリアパスの不安 – いま上にいる人のキャリアが正しいのだろうか cf. 仕事できない上司、人間性のない教授 • 新たな社会でのキャリアに対する不安 – そもそも平成の社会じゃなくて令和の社会だし 展示準備して。特許書いて。教育 して。事業所行って。(中略) 余った時間でもちろん研究して。
  11. 11. 言語指示を受けたエージェントの不安 • 局所的な移動パスの不安 – 今の動作はゴールに近づく動作だろうか cf. 言語による指示と今の視界との関連付け • 大域的な移動パスの不安 – ゴールに辿り着いたパスが正しいのだろうか cf. ランダムに動いてもゴールには辿り着く • 未知の環境での移動に対する不安 – そもそも既知の環境じゃなくて未知の環境だし 階段を上がって右を向いて。 バスルームを通り過ぎてベッドの そばで止まって。
  12. 12. 言語指示を受けた移動ロボットの不安 • 局所的な移動パスの不安 – 今の動作はゴールに近づく動作だろうか cf. 言語による指示と今の視界との関連付け • 大域的な移動パスの不安 – ゴールに辿り着いたパスが正しいのだろうか cf. ランダムに動いてもゴールには辿り着く • 未知の環境での移動に対する不安 – そもそも既知の環境じゃなくて未知の環境だし 階段を上がって右を向いて。 バスルームを通り過ぎてベッドの そばで止まって。 Vision-Language Navigation=人生 視覚と自然言語によるエージェントのナビゲーション
  13. 13. 本日の論文 Vision-Language Navigation (VNL) タスクのために • 局所的/大域的な移動パスのマッチング • 未知環境下での自己教示模倣学習 →VNLタスクでState-of-the-art達成 CVPR 2019 Best Student Paper Award
  14. 14. CVPR 2019 読み会 Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation 牛久 祥孝 losnuevetoros
  15. 15. Room-to-Room (R2R) タスク 実体をもつエージェントが • 言語によるインストラクション 𝜒 = 𝑥1, 𝑥2, … , 𝑥 𝑛 を受け • 𝑡番目のカメラ位置𝑠𝑡に基づいて、シミュレータから エージェントの見える光景 𝑣 𝑡,𝑗 𝑗=1 𝑚 (𝑚はカメラ角度)を受け • 行動(移動)𝑎 𝑡を決定 「停止」を選ぶまで続ける 行動 インストラクション ゴールまでの距離 ・3m未満になったら成功 ・エージェントは知らない数字
  16. 16. 実世界3次元データセットの活用 • 他のRGBDデータだと… – NYUv2, SUN RGB-D, ScanNet – 動画像なのでパスの選択肢がほとんどない • Matterport 3D [Chang+, 3DV 2017] – 90の建造物で総計10,800点のパノラマRGBD画像を収集 – 各点で18方向のRGBD画像を収集→パノラマ化 – 平均2.25m間隔、人の目線の高さ、カメラポーズも記録
  17. 17. Matterport3D Simulator 観測データ • 3次元位置 観測地点に量子化 • 水平/鉛直方向のカメラ角度 • 𝑡ステップ目のRGB画像(観測) 本来Matterport3DはDepth付きだが、今回はまずRGBのみ エージェントの行動 • 視界の中から次の地点を選択したり • カメラ角度を更新したり
  18. 18. Matterport3D Simulator のグラフ表現 各位置をノードとする重み付き無向グラフ • 5m以上離れたエッジや障害物を挟むエッジは削除 • エッジが張られているノードのうち、現在の視界 に含まれるノードに移動
  19. 19. R2R データセット Amazon Mechanical Turk で収集 • 7189経路を抽出 – 5m以上離れた2地点 →平均10m程度 – 最低4~6回移動 • 経路あたり3つずつの インストラクションを 収集 – 平均29単語 (類似課題に比べて長め) – 約3100語彙 (類似課題に比べて少量)
  20. 20. R2R データセット Amazon Mechanical Turk で収集 • 7189経路を抽出 – 5m以上離れた2地点 →平均10m程度 – 最低4~6回移動 • 経路あたり3つずつの インストラクションを 収集 – 平均29単語 (類似課題に比べて長め) – 約3100語彙 (類似課題に比べて少量)
  21. 21. R2R データセット Amazon Mechanical Turk で収集 • 7189経路を抽出 – 5m以上離れた2地点 →平均10m程度 – 最低4~6回移動 • 経路あたり3つずつの インストラクションを 収集 – 平均29単語 (類似課題に比べて長め) – 約3100語彙 (類似課題に比べて少量)
  22. 22. 集められたインストラクションの例 • Pass the pool and go indoors using the double glass doors. Pass the large table with chairs and turn left and wait by the wine bottles that have grapes by them. • Go up the stairs and turn right. Go past the bathroom and stop next to the bed.
  23. 23. Speaker-Follower モデル • データセット提案論文 [Anderson+, CVPR 2018]: – 道順を聞いて動くエージェント (Follower) のみモデル – Follower は正面の画像のみ見ている設定 • 本研究: – 道順そのものを新たな経路から生成できるエージェント (Speaker) を用意→訓練データを拡張 – Follower は360°画像を利用 [Fried+, NeurIPS 2018]
  24. 24. 本論文の課題意識と解決策
  25. 25. 局所的な移動パスの不安 画像と言語指示から推論を進めなければならない • 指示と今の視覚的状況を結び付けないといけない • 全体の移動経路と指示のマッチングも必要 Instruction 1. Turn right and head towards the kitchen. 2. Then turn left, pass a table and enter the hallway. 3. Walk down the hallway and turn into the entry way to your right without doors. 4. Stop in front of the toilet. Local visual scene
  26. 26. 大域的な移動パスの不安 フィードバックが粗い • 目的地の近くに到達したら成功 • Path Bは目的地の手前で止まったので失敗 • Path Cはランダムに動いているだけだが成功 → 正解Path Aに対する類似性を用いるべきでは
  27. 27. 未知の環境での移動に対する不安 未知の環境下だと既知の環境下の様に振舞えない cf. [Tan+, NAACL 2019] ← arXiv 2019年4月公開 • 同様の動機からEnvironmental Dropoutを提案 • 実は本論文を少し上回る性能を達成している (本論文のarXiv公開は2018年11月)
  28. 28. 本研究の貢献点 • Reinforced Cross-Modal Matching (RCM) – 局所的+大域的な移動パスの不安に対応 – Reasoning Navigator 各指示と周囲画像の局所的マッチング – Matching Critic 指示全体と移動経路の大域的マッチング • Self-Supervised Imitation Learning (SIL) – 未知の環境での移動に対する不安に対応 – 既知環境のインストラクションによって 未知環境下でReplay Bufferを構築 →自己教示+模倣学習に利用
  29. 29. Reinforced Cross-Modal Matching
  30. 30. Reinforced Cross-Modal Matching
  31. 31. Cross-Modal Reasoning Navigator インストラクション 𝒘𝒊 𝒊=𝟏 𝒏 と各時点𝒕での視覚情報(パノラマ 画像の各方向の視界の集合) 𝒗 𝒕,𝒋 𝒋=𝟏 𝒎 から行動𝒂 𝒕を計算したい
  32. 32. Cross-Modal Reasoning Navigator 1. パノラマ画像に𝑚個ある視点の画像に対して、履歴の文脈 ℎ 𝑡からアテンションを用いて画像特徴量𝑣 𝑡を算出
  33. 33. Cross-Modal Reasoning Navigator 2. 画像特徴量と直前の行動𝑎 𝑡−1をLSTMに入力してℎ 𝑡を更新
  34. 34. Cross-Modal Reasoning Navigator 3. 更新されたℎ 𝑡から、インストラクションの各単語 𝑤𝑖 𝑖=1 𝑛 の アテンションを計算 →テキストの文脈ベクトル𝑐𝑡 𝑡𝑒𝑥𝑡 を算出
  35. 35. Cross-Modal Reasoning Navigator 4. テキストの文脈ベクトル𝑐𝑡 𝑡𝑒𝑥𝑡 からパノラマ画像に𝑚個ある 視点の画像に対するアテンションを計算 →画像の文脈ベクトル𝑐𝑡 𝑣𝑖𝑠𝑢𝑎𝑙 を算出
  36. 36. Cross-Modal Reasoning Navigator 5. 全文脈ベクトルℎ 𝑡, 𝑐𝑡 𝑡𝑒𝑥𝑡 , 𝑐𝑡 𝑣𝑖𝑠𝑢𝑎𝑙 と𝑘番目の方向へ移動する先 の画像および角度の正弦・余弦をつないだ𝑢 𝑘の双線形積 →行動𝑎 𝑡の決定
  37. 37. Reinforced Cross-Modal Matching
  38. 38. Reinforced Cross-Modal Matching
  39. 39. Cross-Modal Matching Critic 1. 移動パス𝜏 = 𝑠1, 𝑎1 , 𝑠2, 𝑎2 , … , 𝑠 𝑇, 𝑎 𝑇 をReasoning Navigatorから算出 2. 移動パス𝜏からインストラクション𝜒の再構成を試みた 際の確率𝑅𝑖𝑛𝑡𝑟 = 𝑝 𝛽(𝜒|𝜏)をIntrinsic Rewardとして利用 なおIntrinsic Rewardに対してExtrinsic Reward 𝑅 𝑒𝑥𝑡𝑟は • 時点𝑡→時点𝑡 + 1で目的地までの距離が縮んだ量𝑟 𝑠𝑡, 𝑎 𝑡 • 時点𝑇で目的地までの距離が一定以下なら1、それ以外は0 • 時点𝑡以降の𝑟𝑡(𝑠𝑡, 𝑎 𝑡)を減衰率𝛾を掛けながら𝑇まで足した和 の総和
  40. 40. Self-Supervised Imitation Learning • 通常のVLN:既知環境で学習、未知環境で評価 • 本論文:既知環境で学習後、評価前に未知環境を探索(教 師データ無し) 1. 出発/目的地点のないインストラクション𝜒をサンプリング 2. Reasoning Navigator 𝝅 𝜽から𝐾本の経路を算出 3. Matching Critic 𝑉𝛽を最大にするパス 𝜏をReplay Bufferへ 4. Replay Bufferにあるデータを用いてNavigatorを更新
  41. 41. 実験結果
  42. 42. 実験設定 R2Rデータセットを利用 • 7189経路を抽出 • 4つに分割 – 既知&訓練データ+既知&検証データ – 未知&検証データ+未知&評価データ 提案手法の学習方法 • 最初はアテンション付き翻訳モデルとして最尤推定による訓練 • 途中から提案するRCMとSILによる訓練に切り替え 評価指標 • PL: Path Length 生成パスの長さ • NE: Navigation Error 生成パスの終点とゴールの間の長さ • OSR: Oracle Success Rate パスがゴールの近くを通る確率 • SR: Success Rate パスがゴールの近くで止まる確率 • SPL: SR weighted by inverse PL PLの逆数で重みづけたSR 1. Turn right and head towards the kitchen. 2. Then turn left, pass a table and enter the hallway. 3. Walk down the hallway and turn into the entry way to your right without doors. 4. Stop in front of the toilet.
  43. 43. 定量比較1 未知環境下での評価データによる比較 PL: Path Length NE: Navigation Error OSR: Oracle Success Rate SR: Success Rate SPL: SR weighted by inverse PL
  44. 44. 定量比較1 未知環境下での評価データによる比較 PL: Path Length NE: Navigation Error OSR: Oracle Success Rate SR: Success Rate SPL: SR weighted by inverse PL データセット提案論文から • ランダムなパス • アテンション付き翻訳モデル
  45. 45. 定量比較1 未知環境下での評価データによる比較 PL: Path Length NE: Navigation Error () OSR: Oracle Success Rate SR: Success Rate SPL: SR weighted by inverse PL 関連研究 • Spearker-Followerが今のSOTA • beam searchは各時点のパスを複数蓄積 成功率(OSR, SR)が上昇するがPLも増大
  46. 46. 定量比較1 未知環境下でのテストデータによる比較 PL: Path Length NE: Navigation Error () OSR: Oracle Success Rate SR: Success Rate SPL: SR weighted by inverse PL 提案手法 • RCMとRCM+SIL (train) が関連研究と同条件(テストデータを見ないで学習) SOTA達成 & 訓練データでの自己教示模倣学習(SIL)も効果アリ • RCM+SIL (unseen) はテストデータを見るので条件が異なるが効果大 関連研究 • Spearker-Followerが今のSOTA • beam searchは各時点のパスを複数蓄積 成功率(OSR, SR)が上昇するがPLも増大
  47. 47. 定量比較2 既知環境/未知環境でのAblation Study PL: Path Length NE: Navigation Error () OSR: Oracle Success Rate SR: Success Rate
  48. 48. 定量比較2 既知環境/未知環境でのAblation Study PL: Path Length NE: Navigation Error () OSR: Oracle Success Rate SR: Success Rate 関連研究 vs. 提案手法 • 同一条件下での比較 • 特に未知環境で提案手法の優位性を確認
  49. 49. 定量比較2 既知環境/未知環境でのAblation Study PL: Path Length NE: Navigation Error () OSR: Oracle Success Rate SR: Success Rate SIL→𝑅𝑖𝑛𝑡𝑟→𝑅 𝑒𝑥𝑡𝑟→Navigatorの順に除去 • 5番目は単純なアテンション付き翻訳モデル • 特に未知環境のSRで各モジュールが大事
  50. 50. 定量比較2 既知環境/未知環境でのAblation Study PL: Path Length NE: Navigation Error () OSR: Oracle Success Rate SR: Success Rate SILを既知環境で実行 vs. 未知環境で実行 • 既知環境と未知環境の両方で精度が改善 • 特に既知環境と未知環境のギャップが縮小
  51. 51. 実行結果1 • Exit the door and turn left towards the staircase. • Walk all the way up the stairs, and stop at the top of the stairs.
  52. 52. 実行結果1 • Exit the door and turn left towards the staircase. • Walk all the way up the stairs, and stop at the top of the stairs.
  53. 53. 実行結果1 • Exit the door and turn left towards the staircase. • Walk all the way up the stairs, and stop at the top of the stairs.
  54. 54. 実行結果1 • Exit the door and turn left towards the staircase. • Walk all the way up the stairs, and stop at the top of the stairs.
  55. 55. 実行結果1 • Exit the door and turn left towards the staircase. • Walk all the way up the stairs, and stop at the top of the stairs.
  56. 56. 実行結果1 • Exit the door and turn left towards the staircase. • Walk all the way up the stairs, and stop at the top of the stairs. Intrinsic Reward: 0.53 Result: Success (error = 0m)
  57. 57. 実行結果2 • Turn right and go down the stairs. • Turn left and go straight until you get to the laundry room. • Wait there.
  58. 58. 実行結果2 • Turn right and go down the stairs. • Turn left and go straight until you get to the laundry room. • Wait there.
  59. 59. 実行結果2 • Turn right and go down the stairs. • Turn left and go straight until you get to the laundry room. • Wait there.
  60. 60. 実行結果2 • Turn right and go down the stairs. • Turn left and go straight until you get to the laundry room. • Wait there.
  61. 61. 実行結果2 • Turn right and go down the stairs. • Turn left and go straight until you get to the laundry room. • Wait there.
  62. 62. 実行結果2 • Turn right and go down the stairs. • Turn left and go straight until you get to the laundry room. • Wait there. Intrinsic Reward: 0.54 Result: Failure (error = 5.5m) さっき見切れていた laundry room を見過ごしていた
  63. 63. まとめ Vision-Language Navigation (VNL) のために • Reinforced Cross-Modal Matching (RCM) 局所的/大域的な移動パスのマッチング • Self-Supervised Imitation Learning (SIL) 未知環境下での自己教示模倣学習 CVPR 2019 Best Student Paper Award • 同様の動機の論文でSOTA更新済み[Tan+, NAACL 2019] • ただしこちらはBest Paperではない(よいこと)
  64. 64. さいごに The 1st CVPR 2019 Workshop on Computer Vision After 5 Years
  65. 65. Cross-Modal Matching Criticも使っている Cycle consistencyといえばコレ!
  66. 66. 過去の後悔 Graphical Model: We should have never gone there! ConvNets: We should have gone there earlier!
  67. 67. 次の5年間の(CVの)ために Potential Liabilities / Future Regrets に基づいて 選ばれたトピックの一つが
  68. 68. Vision + Language !!!
  69. 69. Vision + Language…? For x = 0 to 99, – CVPR 20xx: here is a great new Vision+Language dataset everyone should use!!! – CVPR 20xx+1: oops, nearest neighbors, blind baselines bet everything…
  70. 70. たしかに。 ただEfros先生も “Controversial, but love to be proven wrong!” と言っているので頑張りましょう

×