Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)

1,583 views

Published on

画像キャプション生成/機械翻訳/文章要約に強化学習を適用しだした論文として読みました。

Published in: Technology
  • Be the first to comment

Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)

  1. 1. 強化学習論文読み会 Sequence Level Training with Recurrent Neural Networks 牛久 祥孝 losnuevetoros
  2. 2. 自己紹介 ~2014.3 博士(情報理工学)、東京大学 • 画像説明文の自動生成 • 大規模画像分類 2014.4~2016.3 NTT コミュニケーション科学基礎研究所 2016.4~ 東京大学 大学院情報理工学系研究科 知能機械情報学専攻 講師 (原田・牛久研究室)
  3. 3. 卒論/修論/博論の季節ですね。
  4. 4. 昔話(自分の修士論文黒歴史) 入力画像に類似した画像のキャプションを 組合せたら入力画像のキャプションになる? A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力画像 データセット内の説明文つき画像
  5. 5. Training Dataset A woman posing on a red scooter. White and gray kitten lying on its side. A white van parked in an empty lot. A white cat rests head on a stone. Silver car parked on side of road. A small gray dog on a leash. A black dog standing in a grassy area. A small white dog wearing a flannel warmer. Input Image A small white dog wearing a flannel warmer. A small gray dog on a leash. A black dog standing in a grassy area. Nearest Captions A small white dog wearing a flannel warmer. A small gray dog on a leash. A black dog standing in a grassy area. A small white dog standing on a leash.
  6. 6. 修士論文を書いていた当時(2011年) Vision & Language勢はおろか… 画像キャプション生成勢が希少種
  7. 7. その後… 増えた! 時代が俺に追いついてきた!
  8. 8. その後… もっと増えた! レッドオーシャンかよ
  9. 9. 2017年度の関東CVで… • 8月のCVPR読み会 – Self-Critical Sequence Training for Image Captioning – 画像キャプション生成の論文 – 強化学習を利用 • 12月のICCV読み会 – Learning Cooperative Visual Dialog with Deep Reinforcement Learning – 視覚×対話の論文 – 強化学習を利用 ひとりVision&Language
  10. 10. 2017年度の関東CVで… • 8月のCVPR読み会 – Self-Critical Sequence Training for Image Captioning – 画像キャプション生成の論文 – 強化学習を利用 • 12月のICCV読み会 – Learning Cooperative Visual Dialog with Deep Reinforcement Learning – 視覚×対話の論文 – 強化学習を利用 ひとりVision&Language&強化学習強化年間
  11. 11. ICCV読み会の直後… ※一部抜粋等の編集あり
  12. 12. ICCV読み会の直後… ※一部抜粋等の編集あり 関東CVが俺にry
  13. 13. 本日の論文 Sequence Level Training with Recurrent Neural Networks 強化学習を用いた文生成手法 Mixed Incremental Cross-Entropy Reinforce (MIXER) 画像キャプション生成/文章要約/機械翻訳に有効 [Ranzato+, ICLR 2016]
  14. 14. 予想される反応
  15. 15. 研究背景~手法の説明
  16. 16. 通常のキャプション生成手法 Google NIC [Vinyals+, CVPR 2015] • GoogLeNet [Szegedy+, CVPR 2015] • LSTM生成モデル [Sutskever+, NIPS 2014] を直列させて文生成 画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は 𝑆0: スタートを意味する単語 𝑆1 = LSTM CNN 𝐼 𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1 𝑆 𝑁: ストップを意味する単語 学習はRNNのCross-Entropy (XENT)
  17. 17. Encoder(前処理)による応用先 • Encoder が文特徴抽出 – 機械翻訳 [Sutskever+, NIPS 2014] – 文章要約 [Rush+, EMNLP 2015] • Encoder が画像特徴量抽出 – 画像キャプション生成 Decoder(後処理)はRNNによる文生成で共通 入力 出力
  18. 18. 注視モデルの利用 [Xu+, ICML 2015] • 画像認識と自然言語処理の融合 – 各単語の推定でどの領域を注目すべきかを算出 – 画像+キャプションから注視モデルも学習!
  19. 19. 生成されたキャプションの評価方法 機械翻訳では… • テスト文に複数の参照訳が付随(通常5文) • これらの参照訳と近い訳文が「良い」 One jet lands at an airport while another takes off next to i Two airplanes parked in an airport. Two jets taxi past each other. Two parked jet airplanes facing opposite directions. two passenger planes on a grassy plain キャプション生成の評価でも同様の流れ PASCAL Sentenceの画像と参照キャプションの例
  20. 20. 定量評価指標 • Precisionに基づく評価(元は機械翻訳用) – システムが出力したキャプション中のn-gramが 参照キャプション中に含まれる割合 – BLEU [PapineniL, ACL 2002] – NIST [Doddington, HLT 2002] 短い文へのペナルティ 短い文へのペナルティ N-gramのPrecisionの累積積 N-gramのPrecisionの累積和
  21. 21. 定量評価指標 • Recallに基づく評価(元は文章要約用) – 参照キャプション中のn-gramがシステムが、出 力したキャプション中に含まれる割合 – Rouge [Lin, 2004] • METEOR [Elliott+Keller, EMNLP 2013] – RecallとPrecision両方を重視
  22. 22. 定量評価指標 • CIDEr [Vedantam+, CVPR 2015] – METEORを参考に設計 – 画像キャプション生成の評価用に考案 TF-IDF(実はNISTとよく似ている) n-gramでの CIDErの累積和 n-gramでの PrecisionとRecallの 調和平均(F値)
  23. 23. 2つの問題点
  24. 24. 問題点1:評価指標で最適化したいのに! Cross-Entropyで学習しても評価に用いるのは BLEUなど → 生成したキャプションの評価指標を 直接最適化するべきでは? • 評価指標の直接最適化 – 機械翻訳ではディープ以前からある [Och, ACL 2003] • 深層学習で評価指標を直接最適化…? – 勾配が求められないから学習できない!! 短い文へのペナルティ N-gramのPrecision
  25. 25. 問題点2: Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing – 入力は𝑡 − 1番目までの 教師データ • テスト時:Free running – 入力は𝑡 − 1番目までで 自身が推定したデータ テスト時の生成系列が学習時から外れだすと エラーが蓄積し続ける
  26. 26. Exposure Biasを解決する既存のアプローチ Scheduled sampling [Venkatraman+, AAAI 2015] Data As Demonstrator [Bengio+, NIPS 2015] • 毎回コイントスして – 教師系列から次を推定 – 生成中の系列から次を推定 のどちらかを選ぶ • 次第に生成中の系列のみを選ぶ様にスケジュール • Exposure Biasを軽減できるが… – いまだにword-levelの最適化なのはXENTと同じ – 生成中の系列が既に違っていた場合はよりエラーが蓄積 e.g. 正解が I had a long walk. で I had a walk 迄生成 →この手法だと walk が正解になってしまう
  27. 27. 本論文の解決策: 強化学習 • 通常のRNN:Teacher forcing – 𝑡番目単語の Cross-entropy を最小化 生成したキャプションを直接評価するべきでは – 評価指標を報酬とする強化学習の導入すれば 問題点1と2が同時に解決されるはず! 機械翻訳/キャプション生成ならBLEU 文章要約ならROUGE state RNNの状態変数 action 単語系列の推定 reward 評価指標 environment 画像特徴と生成中のキャプション
  28. 28. Policy Gradient by REINFORCE • REINFORCE [Williams, 1992] – 実は報酬の勾配の期待値は 確率の(対数の)偏微分と報酬の積の期待値 – 先ほどと同様に、ミニバッチの画像の報酬から 近似できる – 適当なベースライン𝑏を導入してもよい
  29. 29. REINFORCEだけだと… • Actionは任意のキャプションの組み合わせ – 語彙 単語数 通り – フルスクラッチでそんな学習できるのか? • MIXER: 2つの工夫 – 最初は通常通りCross-Entropyで学習したモデル を利用(20 epochsくらい) – 次第にREINFORCEによる学習の割合を増やす (5 epochsくらい) Cf. Mixed Incremental Cross-Entropy Reinforce → まさに Cross-Entropy と REINFORCE の混合
  30. 30. 実験結果~まとめ
  31. 31. 実験設定 • 次の3タスクによる文生成モデルの評価 – 文章要約 Gigaword (一部、18万ほどのニュース本文と題) – 機械翻訳 IWSLT2014 (15万対ほどの独英翻訳データ) – 画像キャプション生成 MSCOCO (8万枚ほどのキャプション付き画像) • 比較手法 – XENT よくあるCross-Entropyによる学習 – DAD 既存のExposure Bias対応策 – MIXER 提案手法
  32. 32. 実験結果 提案手法(MIXER)のみ評価指標で直接最適化 →最適化がうまくいけば、各タスクで勝つのは自然 • MIXERが各々最適化に用いた指標で評価 – 文章要約: Rouge – 機械翻訳、画像キャプション生成: BLEU • Beam Searchに関する実験も行っているが 本スライドでは割愛
  33. 33. まとめ • 実は「画像キャプション生成に強化学習を 入れた」研究はその前にも存在 – アテンション付きキャプション生成 [Xu+, ICML 2015] アテンションモデルの一つにREINFORCEを利用 • 本論文の貢献 – 評価指標を直接最適化できるRNN文生成モデル – 微分不可能な評価指標を使う系列生成なら… CVでもNLPでもIPでもなんでもokなはず
  34. 34. その後の展開 • Self-Critical Sequence Training for Image Captioning [Rennie+, CVPR 2017]←7月 – REINFORCEの方策勾配のベースラインを その時点で生成してみたキャプションの報酬に – MIXERでは𝑏 = 0→勾配の分散大、学習が不安定 • An Actor-Critic Algorithm for Sequence Prediction [Bahdanau+, ICLR 2017]←4月 – REINFORCE → Actor-Critic – つまり勾配の分散の考慮…あれ↑と似てるぞ…
  35. 35. 予想される反応 そんなことないよ(震え声)
  36. 36. 最後に 寒すぎて味噌ラーメンが食べたい?
  37. 37. ぜひご参加ご検討ください!特に若手プログラムへ https://sites.google.com/view/miru2018sapporo/ 来年の夏ですが

×