Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会）

強化学習論文読み会
Sequence Level Training
with Recurrent Neural Networks
牛久祥孝
losnuevetoros

自己紹介
～2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4～2016.3 NTT コミュニケーション科学基礎研究所
2016.4～東京大学大学院情報理工学系研究科
知能機械情報学専攻講師 (原田・牛久研究室)

卒論/修論/博論の季節ですね。

昔話（自分の修士論文黒歴史）
入力画像に類似した画像のキャプションを
組合せたら入力画像のキャプションになる？
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力画像
データセット内の説明文つき画像

Training Dataset
A woman posing
on a red scooter.
White and gray
kitten lying on
its side.
A white van
parked in an
empty lot.
A white cat rests
head on a stone.
Silver car parked
on side of road.
A small gray dog
on a leash.
A black dog
standing in a
grassy area.
A small white dog
wearing a flannel
warmer.
Input Image
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
Nearest Captions
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
A small white dog standing on a leash.

修士論文を書いていた当時(2011年)
Vision & Language勢はおろか…
画像キャプション生成勢が希少種

その後…
増えた！
時代が俺に追いついてきた！

その後…
もっと増えた！
レッドオーシャンかよ

2017年度の関東CVで…
• 8月のCVPR読み会
– Self-Critical Sequence Training for Image
Captioning
– 画像キャプション生成の論文
– 強化学習を利用
• 12月のICCV読み会
– Learning Cooperative Visual Dialog with Deep
Reinforcement Learning
– 視覚×対話の論文
ひとりVision&Language

2017年度の関東CVで…
• 8月のCVPR読み会
– Self-Critical Sequence Training for Image
Captioning
– 画像キャプション生成の論文
• 12月のICCV読み会
– Learning Cooperative Visual Dialog with Deep
Reinforcement Learning
– 視覚×対話の論文
ひとりVision&Language&強化学習強化年間

ICCV読み会の直後…
※一部抜粋等の編集あり

ICCV読み会の直後…
※一部抜粋等の編集あり
関東CVが俺にry

本日の論文
Sequence Level Training with Recurrent Neural Networks
強化学習を用いた文生成手法
Mixed Incremental Cross-Entropy Reinforce (MIXER)
画像キャプション生成/文章要約/機械翻訳に有効
[Ranzato+, ICLR 2016]

研究背景～手法の説明

通常のキャプション生成手法
Google NIC [Vinyals+, CVPR 2015]
• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM生成モデル [Sutskever+, NIPS 2014]
を直列させて文生成
画像𝐼への文（単語列）𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
学習はRNNのCross-Entropy (XENT)

Encoder(前処理)による応用先
• Encoder が文特徴抽出
– 機械翻訳 [Sutskever+, NIPS 2014]
– 文章要約 [Rush+, EMNLP 2015]
• Encoder が画像特徴量抽出
– 画像キャプション生成
Decoder(後処理)はRNNによる文生成で共通
入力
出力

注視モデルの利用 [Xu+, ICML 2015]
• 画像認識と自然言語処理の融合
– 各単語の推定でどの領域を注目すべきかを算出
– 画像+キャプションから注視モデルも学習！

生成されたキャプションの評価方法
機械翻訳では…
• テスト文に複数の参照訳が付随（通常5文）
• これらの参照訳と近い訳文が「良い」
One jet lands at an airport while another takes off next to i
Two airplanes parked in an airport.
Two jets taxi past each other.
Two parked jet airplanes facing opposite directions.
two passenger planes on a grassy plain
キャプション生成の評価でも同様の流れ
PASCAL Sentenceの画像と参照キャプションの例

定量評価指標
• Precisionに基づく評価（元は機械翻訳用）
– システムが出力したキャプション中のn-gramが
参照キャプション中に含まれる割合
– BLEU [PapineniL, ACL 2002]
– NIST [Doddington, HLT 2002]
短い文へのペナルティ
N-gramのPrecisionの累積積
N-gramのPrecisionの累積和

定量評価指標
• Recallに基づく評価（元は文章要約用）
– 参照キャプション中のn-gramがシステムが、出
力したキャプション中に含まれる割合
– Rouge [Lin, 2004]
• METEOR [Elliott+Keller, EMNLP 2013]
– RecallとPrecision両方を重視

定量評価指標
• CIDEr [Vedantam+, CVPR 2015]
– METEORを参考に設計
– 画像キャプション生成の評価用に考案
TF-IDF（実はNISTとよく似ている）
n-gramでの
CIDErの累積和
n-gramでの
PrecisionとRecallの
調和平均（F値）

問題点1:評価指標で最適化したいのに！
Cross-Entropyで学習しても評価に用いるのは
BLEUなど
→ 生成したキャプションの評価指標を
直接最適化するべきでは？
• 評価指標の直接最適化
– 機械翻訳ではディープ以前からある [Och, ACL 2003]
• 深層学習で評価指標を直接最適化…？
– 勾配が求められないから学習できない！！
N-gramのPrecision

問題点2: Exposure Bias
通常のRNNによる系列生成モデル学習では…
• 学習時：Teacher forcing
– 入力は𝑡 − 1番目までの
教師データ
• テスト時：Free running
– 入力は𝑡 − 1番目までで
自身が推定したデータ
テスト時の生成系列が学習時から外れだすと
エラーが蓄積し続ける

Exposure Biasを解決する既存のアプローチ
Scheduled sampling [Venkatraman+, AAAI 2015]
Data As Demonstrator [Bengio+, NIPS 2015]
• 毎回コイントスして
– 教師系列から次を推定
– 生成中の系列から次を推定
のどちらかを選ぶ
• 次第に生成中の系列のみを選ぶ様にスケジュール
• Exposure Biasを軽減できるが…
– いまだにword-levelの最適化なのはXENTと同じ
– 生成中の系列が既に違っていた場合はよりエラーが蓄積
e.g. 正解が I had a long walk. で I had a walk 迄生成
→この手法だと walk が正解になってしまう

本論文の解決策: 強化学習
• 通常のRNN：Teacher forcing
– 𝑡番目単語の Cross-entropy を最小化
生成したキャプションを直接評価するべきでは
– 評価指標を報酬とする強化学習の導入すれば
問題点1と2が同時に解決されるはず！
機械翻訳/キャプション生成ならBLEU
文章要約ならROUGE
state
RNNの状態変数
action
単語系列の推定
reward
評価指標
environment
画像特徴と生成中のキャプション

Policy Gradient by REINFORCE
• REINFORCE [Williams, 1992]
– 実は報酬の勾配の期待値は
確率の（対数の）偏微分と報酬の積の期待値
– 先ほどと同様に、ミニバッチの画像の報酬から
近似できる
– 適当なベースライン𝑏を導入してもよい

REINFORCEだけだと…
• Actionは任意のキャプションの組み合わせ
– 語彙
単語数
通り
– フルスクラッチでそんな学習できるのか？
• MIXER: 2つの工夫
– 最初は通常通りCross-Entropyで学習したモデル
を利用（20 epochsくらい）
– 次第にREINFORCEによる学習の割合を増やす
（5 epochsくらい）
Cf. Mixed Incremental Cross-Entropy Reinforce
→ まさに Cross-Entropy と REINFORCE の混合

実験設定
• 次の3タスクによる文生成モデルの評価
– 文章要約
Gigaword (一部、18万ほどのニュース本文と題)
– 機械翻訳
IWSLT2014 (15万対ほどの独英翻訳データ)
– 画像キャプション生成
MSCOCO (8万枚ほどのキャプション付き画像)
• 比較手法
– XENT よくあるCross-Entropyによる学習
– DAD 既存のExposure Bias対応策
– MIXER 提案手法

実験結果
提案手法(MIXER)のみ評価指標で直接最適化
→最適化がうまくいけば、各タスクで勝つのは自然
• MIXERが各々最適化に用いた指標で評価
– 文章要約: Rouge
– 機械翻訳、画像キャプション生成: BLEU
• Beam Searchに関する実験も行っているが
本スライドでは割愛

まとめ
• 実は「画像キャプション生成に強化学習を
入れた」研究はその前にも存在
– アテンション付きキャプション生成 [Xu+, ICML 2015]
アテンションモデルの一つにREINFORCEを利用
• 本論文の貢献
– 評価指標を直接最適化できるRNN文生成モデル
– 微分不可能な評価指標を使う系列生成なら…
CVでもNLPでもIPでもなんでもokなはず

その後の展開
• Self-Critical Sequence Training for Image
Captioning [Rennie+, CVPR 2017]←7月
– REINFORCEの方策勾配のベースラインを
その時点で生成してみたキャプションの報酬に
– MIXERでは𝑏 = 0→勾配の分散大、学習が不安定
• An Actor-Critic Algorithm for Sequence
Prediction [Bahdanau+, ICLR 2017]←4月
– REINFORCE → Actor-Critic
– つまり勾配の分散の考慮…あれ↑と似てるぞ…

予想される反応
そんなことないよ（震え声）

最後に
寒すぎて味噌ラーメンが食べたい？

ぜひご参加ご検討ください！特に若手プログラムへ
https://sites.google.com/view/miru2018sapporo/
来年の夏ですが

Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会）

Similar to Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会） (20)

More from Yoshitaka Ushiku

More from Yoshitaka Ushiku (11)

Recently uploaded

Recently uploaded (15)