Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

future study group_iclr2019_nlp

669 views

Published on

ブログ公開用

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

future study group_iclr2019_nlp

  1. 1. ICLR 2019 summary NLP関連 SAIG, Future Study Group
  2. 2. The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision Jiayuan Ma(MIT CSAIL and IIIS, Tsinghua University), Chuang Gan(MIT-IBM Watson AI Lab), Pushmeet Kohli(Deepmind), Joshua B. Tenenbaum(MIT BCS, CBMM, CSAIL), Jiajun Wu(MIT CSAIL) https://www.youtube.com/watch?v=H7vUTdrd-40
  3. 3. TL;DR ● 人が物体を認識するとき、見た目的な情報と言語的な情報を用いている ● 同じようにAIを学習させることで、より複雑な物体認識が可能になるのでは ● -> 明示的な教師データなしで、視覚的な概念、単語、文の意味解析を行う手法 Neuro-Symbolic Concept Learner(NS-CL)を提案
  4. 4. Neuro Symbolic Concept Learnerの概要図 システムへのインプットは、画像と、画像に対する質問文(Q)、正解(Groundtruth) のみ
  5. 5. Q: What is the shape of the red object? object detection, feature extraction semantic parsing sphere 画像とQが与えられた際、 画像に対してオブジェクト検出、Qに対して構文解析が行われる。
  6. 6. Q: What is the shape of the red object? object detection, feature extraction semantic parsing sphere 画像に対するオブジェクト検出によって、VisualRepresentationが得られる。 Qに対する構文解析によって、 コンセプト(「赤い」とか、「丸い」とか)を表すベクトル Concept Embeddings と、 回答を出力するための一連のプログラム列 Program が得られる。 Program
  7. 7. Q: What is the shape of the red object? object detection, feature extraction semantic parsing sphere Neuro-Symbolic Reasoningモジュールは、 Visual Representation, Concept Embeddings, Programの3つを受け取り、 回答である “sphere” を出力する
  8. 8. Q: What is the shape of the red object? Concept Program Visual Representation, Concept Embeddingsを合わせてConcept, プログラム列をProgramと呼称しており、 ConceptとProgramが相互に影響し学習を行う。
  9. 9. Q: What is the shape of the red object? Concept Program はじめに、Programが正しいと仮定した場合の、 Conceptの学習について解説する
  10. 10. Q: What is the shape of the red object? 色に変換す るNN Color Representation Qに対して正しいProgramを出力できた場合、 “What is the shape of the red object?” に対するProgramは以下の2ステップとなる (1) 赤色のオブジェクトでフィルターする (2) 形を求める
  11. 11. Q: What is the shape of the red object? 色に変換す るNN Color Representation (1) 赤色のオブジェクトでフィルター Visual Representationから、色を表すベクトル空間にマッピングするNNを導入。 オブジェクトの色ベクトルと、Concept Embeddingsにおける赤色のベクトルとの cos類似度を計算。結果的にObj2に絞り込まれる。
  12. 12. Q: What is the shape of the red object? 形に変換す るNN Shape Representation Sphere Cube Cylinder (2) 形を求める Obj2に対して、形を表すベクトル空間へのマッピングを行うNNを適用。 Obj2に対する形を表すベクトルと、Concept Embeddings中の形を表すベクトルとを比較。結果とし てsphereを表すベクトルと最も類似度が高いため、sphereが回答となる
  13. 13. Q: What is the shape of the red object? object detection, feature extraction semantic parsing sphere back propagation プログラムは2ステップで終了なので、回答として sphere が出力される。 回答とGroundtruthを比較、 誤差逆伝播法でVisual Representation, Concept Embeddingsの学習を行う。
  14. 14. Q: What is the shape of the red object? Concept Program 次に、ConceptからProgramを学習プロセスを解説する
  15. 15. Q: What is the shape of the red object? Predicted Answer: Sphere Ground truth: Sphere Qに対するProgramの候補が2つある場合を考える。 上の例は、Qを正しく解釈したときのプログラム。 下の例は、「赤色のオブジェクトと同じカタチをしたオブジェクトが画像中に存在するか」という Qに対するProgramで、与えられたQに対しては誤った解釈。
  16. 16. Q: What is the shape of the red object? Predicted Answer: Sphere ✔ Groundtruth: Sphere Visual RepresentationとConcept Embeddingsが正しいと仮定したとき、 上の例のプログラムを実行した結果として “sphere” が出力され、 Groundtruthと一致する。
  17. 17. Q: What is the shape of the red object? Predicted Answer: No Groundtruth: Sphere 一方、下のプログラムを実行した場合、 赤色のオブジェクトと同じ形のオブジェクトは存在しないため、”No”が出力される。
  18. 18. Q: What is the shape of the red object? Predicted Answer: No ❌ Groundtruth: Sphere reinforce “No” という出力はAnswerの “sphere” と一致しないため間違い。 強化学習の枠組みで正しいProgramを出力できるよう学習する。
  19. 19. Q: What is the shape of the red object? Concept Program このように、ConceptとProgramが相互に働きかけることで学習を進める
  20. 20. Curriculum Learning 一連の学習はCurriculum Learningの枠組み で実行される。 最初は簡単な画像、Q, Groundtruthで学習が 進み、適切な回答を出せるようになったら次の 難易度において学習が行われる。
  21. 21. High Accuracy and Data Efficiency
  22. 22. High Accuracy and Data Efficiency CLEVRデータセットに対して精度評価を実施。 他の手法よりも高い精度を出している。 また、10%のデータ量である、7Kイメージと70Kの質問ペアにおい ても98.9%の精度を達成。少量のデータでも高精度。
  23. 23. Conclusion ● 視覚的な情報をアノテーションされていない言語データから学習 ● 手法 ○ neuro-symbolicモジュールによる、visual conceptの認識 ○ visual conceptと言語の同時学習、 with カリキュラムラーニング ● 強み ○ 高い精度、データ量が少なくても OK ○ 他のタスクへの適用可能性が高い
  24. 24. Wizard of Wikipedia: Knowledge-Powered Conversational Agents Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, Jason Weston Facebook AI Research
  25. 25. TL;DR ● Wizard of Wikipediaデータセットの作成、公開 ● 質問応答システムの手法 (Retrieval transformer memory networkと、 Generative transformer memory network) を提案
  26. 26. ● 目標 ○ ドメインに依存しない対話システムにおいて、知識をうまく使いたい ● 現状 ○ 現状の対話システム (e.g. seq2seq, transformerなど)では、 知識や記憶保持に限界がある ○ 知識を問うようなデータセット、評価指標がないことも原因の一つ ● 新たなデータセット ○ Wikipediaから知識を検索し会話を行う、大規模なデータセット (Wizard of Wikipedia Dataset)を作 成 ● 新たなモデル ○ 知識の検索、読解、理解、最終的に自然な回答を生成するモデルを提案 ● 結果 ○ オープンドメインなトピックにおいて、知識を活用した会話ができるようになった
  27. 27. The Wizard of Wikipedia Dataset ● 二人の人間がチャットで雑談をする際のデータを収集する ● 片方が最初にトピックを決めて話を開始 ● 途中でトピックが変わっても良い ● それぞれ役割を演じる ○ Wizard: なんでも知ってる知識人 (実際はwikipediaの記事を参考にして回答をしている ) ○ Apprentice: 好奇心旺盛な学習者 ● 最終的にはwizardをbotに置き換えていくのが目的
  28. 28. 一連の会話の流れ 1. 1,431のトピックの中から一つ選び、話しかける ○ トピックは多岐に渡る。ゴーダチーズとか、ポッドキャストとかボーリングとかシュワちゃんとか 2. wizardはメッセージを受け取ると同時に、会話に関連するであろうWikipediaのパッ セージ候補が提示される 3. wizardは、選んだwikipediaのパッセージを元に返答を作成、同時にどのパッセー ジを元にしたかアノテーションしつつ、apprenticeに返信 4. 会話は5往復で終了
  29. 29. ↑ wizardにターンが回ってくるたびに、 Wikipediaの関連しそうなパッセージが提示される 関連しそうな情報の表示方法は、 Chenら(2017)のOpen-SQuAD datasetに対する情報検索アルゴリズ ムを使用。 直前のapprenticeとwizardの会話からそれぞれ 7件ずつ、関連項目を取得、 トピックに対する記事の 1件と合わせて15件のパッセージを提示。
  30. 30. 得られたデータ
  31. 31. 得られたデータの例
  32. 32. Wizardをシステムに置き換えるための提案手法 ● Retrievalモデル ○ 予め返答の選択肢が用意されている状態で、以下の式から返答を探す。 返答の選択肢は、データセットで正解にあたるものと、他の対話に使われた返答からランダムに とったものの集合。 ● Generativeモデル ○ End-to-endとtwo-stageの二種類がある ○ TransformerとMemory Networkのハイブリッド
  33. 33. Generativeモデル ● End-to-end version ○ 対話と知識を与えて、 end to end に応答を生成するモデル ○ 最終的な発話の negative log likelihood による ロス だけでなく、 知識選択のタイミングにおいても、人が選んだ知識をシステムでも選択できているかを評価するロ スを足している ● Two-stage version ○ 知識の選択と、知識 +対話から返答を生成するところでモデルを 2つに分け、 それぞれトレーニングするモデル ○ 前者のモデルで使用する知識は候補から 1つだけ選ぶため、この精度が後にまぁまぁ影響を及ぼ す ○ 知識が間違っていた際、返答がおかしくならないようにするため、 一定確率で知識を無くす Knowledge Dropout (K.D.) も取り入れた
  34. 34. 評価 ● 対話生成の評価 ● 評価指標はPerplexity(PPL)とunigramに対するF値(F1) ● 実験設定 ○ Predicted Knowledge ■ どの知識を回答に使用するかも、システムが予測する ○ Gold Knowledge ■ どの知識を回答に使用するかは、正解が与えられる
  35. 35. 人による評価 ● 人がapprentice、システムがwizardで会話を行い、 どのくらい気に入ったかを5段階で評価 ●
  36. 36. まとめ ● Wizard of Wikipediaデータセットの作成 ○ 大規模、汎用的なQAタスクに使用可能 ● QAシステムのモデルを提案 ○ Transformer x Memory Network ● データ等はこちらから取れそう ○ https://parl.ai/projects/wizard_of_wikipedia/

×