Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ReviewNet_161122

ReviewNetの論文概要

  • Be the first to comment

ReviewNet_161122

  1. 1. Review Networks for Caption Generation Zhilin Yang+, Carnegie Mellon University, '16 2016/11/22 @shima_x
  2. 2. Agenda 概要 モチベーション Attentionモデルのおさらい ReviewNetの手法 実験/結果 コメント
  3. 3. 概要
  4. 4. 概要 Caption生成における新たな手法を提案 encoderとdecoderの間にreview stepを追加 既存のencoder‑decoderに追加することが出来、性能向上が 見込める Image captionだけでなく、seq2seqなタスクにも利用可能(マ ルチタスク)
  5. 5. モチベーション
  6. 6. モチベーション 入力(画像など)からのグローバルな情報の活用 以前の手法では生成ステップが進むにつれecnoderから取得し た情報が失われていた encoder情報をさらに精製した情報をdecoderに投入したい(review step) encoder‑decoderモデルへのdiscriminative supervision適用手法を 明確にしたい 性能向上
  7. 7. attention modelのおさらい
  8. 8. Encoder 入力からcontext vectorを抽出 Decoder context vectorからsentenceを生成 Attention Effective Approaches to Attention‑based Neural Machine Translation, Luong+, '15で提案された手法 出力wordに対して、画像や文字位置の特定の位置周辺の情報を活用 出力に対する入力の注目点が分かる、という事も良い点
  9. 9. Global attentional model 入力情報全てを使用し、前のhidden stateとの加重平均をRNNへの 入力として計算 入力文字列が長くなると上手く計算出来なる傾向
  10. 10. Local attention model 入力情報の一部を使用する 入力文字列が長くなっても注目箇所周辺のデータのみを使用するの で上手くいく
  11. 11. Global attentional model Local attention model ※ は入力文のhidden state, h はdecoderのLSTMのhidden statehs ¯ t
  12. 12. Review Netの手法
  13. 13. Review Netのnetwork構成
  14. 14. ReviewerとDecoderの詳細図
  15. 15. Encoder encoderはinput xをcontext vector cへencodeするもの source hidden states: H = {h }t t
  16. 16. Encoder RNN Encoder T = ∣H∣ : length of imput sequence context vector(c = h ): final hidden state h は普通のLSTM h はzero vector CNN Encoder 論文中はVGG16 context vector: c = fc7(x) hidden states: H = conv5(x), T_x=|H|=196(14×14) x Tx t 0
  17. 17. Reviewer Encoderの出力よりも、以下の点で良い情報抽出を行う 1. コンパクト 2. 情報の抽象化 3. グローバル情報の抽出
  18. 18. Reviewer Notation T : review stepの数 H: encoder hidden states(画像だとfeature map) f (thought vector): output g : modified LSTM g はAttentive Input ReviewerとAttentive Output Reviewerを提案 (使い分け不明) r t t t
  19. 19. Reviewer α(h , f )はattention modelのscoreと同じ h : i番目のHの要素 f : tステップ目のLSTM i t−1 i t ′
  20. 20. Decoder F = {f } : set of thought vectors(reviewerのoutput) s : tステップ目のLSTMのhidden state f : decoderのLSTM y : tステップ目のdecodeされたtoken s : W [f ; c] [・;・]: concatenation of two vectors t t t ′′ t 0 ′ Tr
  21. 21. network構成(再掲)
  22. 22. Discriminative Supervisionのloss discriminative loss total loss
  23. 23. discriminative lossの意味 引用: From Captions to Visual Concepts and Back,Fang+, '14
  24. 24. discriminative loss s はvocablary内の単語が表す物体が画像中に含まれているscore 式からはペナルティ項のような印象 しかし実装中1は教師とのhinge lossを計算している感じ... [1] https://github.com/kimiyoung/review_net/blob/master/image_caption_offline/reaso n_att_copy.lua#L268 j
  25. 25. 実験
  26. 26. 評価 image caption offline datasetを使った普通の評価 online CoCoLabのサーバで自動評価 source code caption
  27. 27. 実験/image caption
  28. 28. データセット MSCOCO 123,000 images with 5 captoins for each image 5,000枚をvalidation/testに使用 残りをtrainingに使用
  29. 29. 実験条件 アルファベット以外の文字列は除外 全て小文字に変換 tokenizeはスペース区切り 頻度5未満の文字は<UNK>に変換 vocablaryは9,520 30文字以上のcaptionは30文字で切った(出力は30文字) OptimizerはAdaGrad
  30. 30. Offline実験 decoder側にbeam searchを使用 T = 8 weight factor λ = 10.0 dimension of word embeddings: 100 learning rate: 1e‑2 dimension of LSTM hidden state: 1,024 early stoppingを使用 条件はBLUE‑4の値のサチり encoder: VGG16 評価指標: BLEU‑4, METEOR, CIDEr r
  31. 31. (カッコ内はbeam searchなし) 3つの指標全てで従来の手法より性能が高い
  32. 32. Online実験 パラメタはofflineの時と(多分)同じ(論文中に記載無し) encoder: Inception‑v3を3つアンサンブルしたもの 評価指標: BLEU‑4, METEOR, ROUGE‑L, CIDEr
  33. 33. OnlineではBLEU‑4以外SoTA手法よりよい結果 Google NICはタスク依存のチューニングをカリッカリにやって、学習に 2週間かけたのが上の性能 提案手法では特殊な事をせずに6時間学習させて上の性能
  34. 34. 最初の3つのreviewerのunitの可視化
  35. 35. 実験/source code caption
  36. 36. データセット HabeasCorpus https://github.com/habeascorpus/habeascorpus‑data‑ withComments Apache Ant, Luceneなどの9つのOpen source code+ comment 7,903,872source code tokens 251,565 comment word tokens そこから10%のファイルをtest setとした キャメルケースは単語に分けた(binaryClassifierEnsemble ‑> binary classifier ensemble)
  37. 37. 実験条件 コメントのmax length: 300 Encoder: RNN T = 8 dimension of word embeddings: 50 dimension of the LSTM hidden states: 256 r
  38. 38. 結果 評価指標: log‑likelihood, top‑k character savings(top‑k を取り出 す際の質) 全ての指標でbase line超え
  39. 39. コメント
  40. 40. 様々なタスクに対して特殊な事をせずに適用でき、収束が早く、精 度が出るのは良さがある(要追試) discriminative lossの意味が不明確 実装するためには不明確な部分があるように感じた

    Be the first to comment

    Login to see the comments

  • disktnk

    Nov. 25, 2016
  • takatsugunokubi

    Dec. 11, 2016
  • KanSakamoto

    Jun. 26, 2017

ReviewNetの論文概要

Views

Total views

1,545

On Slideshare

0

From embeds

0

Number of embeds

1,095

Actions

Downloads

8

Shares

0

Comments

0

Likes

3

×