Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Visual Question Answering 2.0

114 views

Published on

TensorFlow User Group Tokyo主催の「NN論文を肴に酒を飲む会 #8」で発表した「Visual Question Answering 2.0」という論文についてのスライドです。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Visual Question Answering 2.0

  1. 1. Visual Question Answering 2.0 Masao Taketani(竹谷 昌夫) 2019-1-23
  2. 2. 自己紹介 名前:竹谷 昌夫(たけたに まさお) 大学時代の専門科目:統計学 ディープラーニング歴:去年から学習を開始し、去年の7月から業務で本格的に ディープラーニングを使った研究・製品開発に携わる。 ▲ITの会社に就職することが決まったて、プログラミング知識を獲得するためにJavaで作った「SUPER MASAO WORLD」
  3. 3. Visual Question Answering(VQA)とは ・与えられた画像と画像に関する質問から答えを予測するためのタスクである。
  4. 4. なぜこの論文を選んだか ・自分自身がディープラーニング X 複数のモダリティからなるマルチモーダルな モデルに興味があり、かつ今回はWBA若手の会と合同ということでこのテーマを 選んだ。 ・学士論文ということもあり、最初の発表を行うのにはちょうどよいレベルだと 思った。 ・実装がしやすそうだった。 論文URL: https://imatge.upc.edu/web/sites/default/files/pub/xRoldan.pdf
  5. 5. State of the Art(この論文執筆時点) ・Multimodal Compact Bilinear Poolingという手法を用いて、画像から得た特徴ベク トルとテキストから得た特徴ベクトルの組み合わせを行い、またアテンションを用 いたアーキテクチャを使用することで高い精度を出した。 論文URL: https://arxiv.org/pdf/1606.01847.pdf
  6. 6. VQA 2.0 Dataset(2017)について ・2015年版の1.0のデータセットでは言語モデルだけで解けるような偏った問題 が多かったため、2017年版は言語モデルだけで解決できないようなバンランスの とれたデータセットで構成させれている。
  7. 7. 画像はMSCOCOデータセットのものが使用され、以下の構成からなる。 ・一画像あたりの平均質問数:5.36 ・一つの質問に対して、別々のアノテーターがつけた10個の正解があるため、ラ ベル数は質問数の10倍。 ・回答のタイプは「はい/いいえ」、「数値」、「その他の単語」にカテゴライズ されている。 学習用 検証用 テスト用 画像枚数 82,783 40,504 81,434 質問数 443,757 214,354 447,793 ラベル数 4,437,570 2,143,540 VQA 2.0 Dataset(2017)について
  8. 8. 論文で検証されたモデル
  9. 9. Baseline Model ・カタルーニャ工科大学が2016のVQA Challengeに参加したときのモデル。 ・画像の特徴抽出器としてKCNN(Kernelized CNN)を使用。画像からの特徴ベクトルに 対して全結合層を追加してベクトルの次元削減を行い、テキストからの特徴ベクトルと 要素ごとの和でマージする。 ・マージしたベクトルに対して最後にSoftmax関数を使用して、辞書として使用した 10,000語の中から、質問内容に最もふさわしい回答となる単語を選択。
  10. 10. テキスト解析のみのモデル ・入力した画像から抽出した特徴がどれくらい精度に寄与しているかを調べるた めに、質問内容だけを解析するモデル(画像の特徴抽出器は使用しない)も構築し た。 ・Word EmbeddingにはGloVe、時系列解析にはLSTMを1層で構成。
  11. 11. VGG-16 Based Model ・VGG-16から特徴抽出器のみを取り出し、7x7x512をFlattenにし、全結合層を 利用して256次元に削減後、テキスト解析モデルから取得した特徴ベクトルと要 素ごとの積をとって結合する。最後にSoftmax関数を用いて答えとなる最もふさ わしい単語を予測する。
  12. 12. VGG-16をファインチューニングする試みについて ・VGG-16を今回使用する訓練データに対してファインチューニングすれば、よ り高い精度が出せるはずだが、今回の検証では計算リソースの原因により(学士論 文のためリソースがあまり割り当てわれなかったと書いてあった)ファインチュー ニングを行うことができなかった。
  13. 13. Word Embedding ・GloVe(Global Vectors Word Representations) embeddingと誤差逆伝搬により学 習させて得たembeddingを比べると、GloVeの方が精度が良かったため、GloVe を使用した。 ・GloVeの分散表現の次元数は100を選択。 ・GloVeの入力側は400,000単語あるが、そのうち10,000単語のみを今回使用する 辞書の順番と合わせて使用。
  14. 14. ResNet Based Model ・画像の特徴抽出器にResNet-50を使用。(ResNet-152版がILSVRC 2015でチャ ンピオンになったことで有名) ・画像の特徴抽出能力が高いのはもちろん、抽出される特徴ベクトルが低次元 (2048次元)なため、学習時間を大幅に少なくすることができる。
  15. 15. 要素ごとの積でマージ ・画像から抽出された特徴ベクトルとテキストから抽出された特徴ベクトルを要素 ごとの積を行ってマージする。 ・ResNet-50ではそれぞれのブロックでBatch Normalizationが使用されているため、 テキストから抽出された特徴ベクトルに対してもBatch Normalization使用する。
  16. 16. 要素ごとの和でマージ ・画像から抽出された特徴ベクトルとテキストから抽出された特徴ベクトルを要素 ごとの和を取ってマージする。
  17. 17. Concatenationによるマージ ・画像から抽出された特徴ベクトルとテキストから抽出された特徴ベクトルをその ままの形でConcatenationを用いて結合する。画像から抽出された特徴ベクトルの次 元は2048次元で、テキストから抽出されたベクトルは256次元なため、結合後は 2304次元のベクトルになる。
  18. 18. 精度の評価方法について
  19. 19. Evaluation Metric 評価方法は、1つの質問に対して別々のアノテーターが作成した10個のラベルの うち、3つ以上のラベルとマッチした場合の正解率は100%、2つのラベルとマッ チした場合は66%、1つのラベルとマッチした場合は33%、1つもマッチしなかっ た場合は0%となる。
  20. 20. それぞれのモデルの検証結果
  21. 21. 言語モデルのみの検証結果 ・単語のembedding layerには一から学習させたモデルと、GloVeのembeddingを 使用したものの2つで検証を行い、GloVeのembeddingを使用した方が精度が良か った。
  22. 22. マージオペランドの検証 ・画像とテキストの情報をマージする際に、画像の特徴抽出にResNetを使用し、 2つの特徴ベクトルを以下4つの方法で検証した。 1. 要素ごとの積 2. 要素ごとの和 3. Concatenation後にFC(全結合層)の利用 4. Concatenation後にFCを利用しない ・ResNetでは要素ごとの和を使用したマージが一番良かったため、VGGでも要 素ごとの和を試したが、VGGの場合は精度が出なかった。
  23. 23. Learning Rate Decayの検証 ・先ほどのResNetのモデルで学習データに対するlossは減少し続けていたが、検 証データに対するlossは早いうちから停滞していたため、検証データのlossに対 する進歩がなくなった段階で学習率の低減をするようにして検証した結果、少し 低いloss値を出すことができた。
  24. 24. GloVe Embeddingのファインチューニング ・Embeddingについて一から学習させるよりもGloVe Embeddingを使用した方が よい結果が出たため、GloVe Embeddingをファインチューニングした精度も検証 してみた結果、精度は向上しなかった。
  25. 25. マージ後にBatch Normalizationの利用 ・画像認識の特徴抽出にResNetを使用したモデルに、Batch Normalizationをマー ジ後に使用し、検証した結果、より良い精度を得るだけでなく、学習時間も大幅 に減らすことができた。(時間の都合上VGGモデルに関しては検証しなかったが 、そちらでも同じような改善が見込めるだろうと書いてあった。)
  26. 26. 検証結果のまとめ ・VGG-basedモデル&GloVe&マージにそれぞれの特徴ベクトルの要素ごとの積 をとったモデルが一番高い精度で、43.30%を得た。 ・言語モデルのみを使用したモデルが42.59%だったため、今回検証したモデルで は、ほとんど言語からのみ学習していることがわかった。
  27. 27. 最初の論文発表をやってみて ・資料作成のために何回も論文を読んで、自分の言葉で表現することによって、 今回学んだことをしっかり自分の頭の中で整理することができた。 ・学士論文ではあるが、論文を読み切り、現在のディープラーニングで使用され る基礎事項をしっかり振り返ることができ、次のステップに進むための自信を得 た。 ・今までは本とネットの情報を中心に学習していたが、今後は徐々に論文を読む 数を増やしていこうと思う。 次回はより高度な内容を扱った論文に挑戦します!
  28. 28. 以上です!

×