Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介

549 views

Published on

ゼミの論文紹介資料。Reading Comprehensionタスクについて、グラフニューラルネットを用いて外部知識をグラフとしてニューラルネット内に取込み精度を向上させた論文.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介

  1. 1. 2017.05.18 ⾃自然⾔言語処理理学研究室  D1 Masayoshi  Kondo   論論⽂文紹介-‐‑‒  About  Reading  Comprehension@2017   Linguistic  Knowledge  as  Memory for  Recurrent  Neural  Networks arXiv:05/07  ver.1 Bhuwan  Dhingra,  Zhilin  Yang,  William  W.Choen,  Ruslan  Salakhutdinov  
  2. 2. XX:  緑のスライドとは?   論論⽂文には記載されていないが、必要箇所の説明に際し補助・ 追記として個⼈人的に記載が必要と思われた場合には、緑⾊色の ページに適宜載せることとする. •  論論⽂文には記載されていないけど、追加説明したい場合は、 緑スライドに書くことにする. •  緑スライドに書かれる内容は、個⼈人の解釈等を含むため、 内容保証しない.
  3. 3. -‐‑‒-‐‑‒:  Whatʼ’s  Reading  Comprehension  Task  ? 【読解問題  /  ⽂文章内容理理解】 Reading  Comprehension  Task   与えられた⽂文章(⻑⾧長短問わない)を読んで、別途与えられる質問に回答する タスク.⽂文章の⻑⾧長さ、質問の種類、回答パターンの数等で難しさが変動. 【機械学習的には・・・】:教師有り学習  問題 ⽂文章S、質問q、回答aのtriplet:(S,  q,  a)が訓練データとしてモデルに 与えられた後、テストデータ(Sʼ’,  qʼ’,  ?)が与えられた時、[?]を当てる問題. (今回は、S内にaの根拠  or  実体が存在し、かつqとaは1対1対応を想定している.) <具体例例>:データセットの紹介. [bAbi  dataset]:   ⽬目的物(entity)と登場⼈人物から構成されるシンプルな物語.質問は、⽬目的物   (entity)に関して様々なタイプのものが存在. [LAMABADA  dataset]:   4〜~5つのほどのセンテンスから構成される物語.質問は、与えられる⽂文章   (物語)の⽂文末の単語予測.
  4. 4. -‐‑‒-‐‑‒:  論論⽂文の概要 •  グラフ情報を導⼊入したニューラルネットモデルとReading  Comprehension タスクの話.研究モチベーションは、「グラフ情報を使って、⻑⾧長距離離の関係 をモデルに考慮させたい.」 •  データセットは、bAbi(and  bAbi-‐‑‒mix)  /  LAMBADA  /  CNN  の3つで検証. •  それぞれのデータセットで最⾼高精度度(評価指標:accuracy-‐‑‒正解率率率)を⽰示した. •  グラフ情報は、ある前処理理を⽤用いて外部から明⽰示的にモデルに与える. •  ⼀一般的なモデルで、様々な関係からグラフを構築出来れば、適⽤用可能. 【まとめ】 【abstract】 ⻑⾧長期的な項の依存関係をRNNでモデリングすることは難しい.そこで我々は、外部的な⾔言語知識識を明⽰示的 な信号として⽤用いることを提案する.この信号は、⻑⾧長期的な項の依存関係を記憶することに⽤用いられる情 報である.具体的には、外部知識識は、(単純な系列列を)任意の距離離にある要素間に張られるエッジが含まれ た系列列に拡張するために⽤用いられ、得られるグラフは有向⾮非巡回グラフ(DAGs)として分解される. 我々は、そのようなグラフをRNNの明⽰示的な記憶装置(memory)としてエンコードするようなモデルを紹 介する.そして、それを⽤用いて、⽂文章の共参照関係をモデリングする.我々は、提案⼿手法をいくつかの text  comprehensionタスクに適⽤用し、CNN,  bAbi,  LAMBADA  を含む研究上考慮しうる全てのベンチ マークに対して最⾼高精度度を記録した(achieve  new  state-‐‑‒of-‐‑‒the-‐‑‒art).bAbi  QAタスクに対しては、提案 ⼿手法はひとつのタスクあたり、たった1000個のexampleで訓練しただけで20のタスクの内15タスクを解 いた.学習されたrepresentationの分析においては、提案⼿手法の能⼒力力が⽂文書の情報を良良い粒粒度度(精度度)でエ ンコードできることを明らかにする.
  5. 5. 1.   Introduction 2.   Related  Work 3.   Methods 4.   Experiments 5.   Results
  6. 6. 系列列データは、⾃自然⾔言語・動画・⾳音声・経済・市場データ含めて、現実世界の多く の応⽤用として観測される.  Deep  Learningは、データのみから系列列データの依存性 を⾒見見い出し、とりわけ、RNNは短期的な依存関係がある場合は、卓越したパフォー マンスを⽰示すことが分かっている. 01:  Introduction ー  背景  ー 【課題】⻑⾧長期的な依存関係を⾒見見つけつつ訓練することは極めて難しい. ̶—  いくつかの解決策: •  Cellの変更更:LSTM(CECユニット),  GRU •  複数のベクトルに情報を伝搬する⽅方式:Attention  Mechanism •  記憶機構を導⼊入する⽅方式:Memory  Networks Daniluk  et  al.(2017)  showed  that  even  memory-‐‑‒augmented  neural   models  do  not  look  beyond  the  immediately  preceding  time  steps. Frustratingly  short  a/ention  spans  in  neural  language  modeling  [arXiv:1702.04521,  2017] 本研究では、上記の課題の解決を試みるのではなく、代わりに、多くの応⽤用で ⻑⾧長期的な依存関係の情報が形式的な知識識の形として実際に利利⽤用可能であることを⽰示す.
  7. 7. ある要素(項/単語)の計算を⾏行行う際に、エッジ情報(given)からその要素に紐紐付いて いる遠い位置にある要素の性質も考慮することが可能になる. 02:  Introduction 具体例例: ⿊黒線:  sequential  links  /  ⾚赤線:  coreference  relations  /  緑線:  hypo・hypernymy 「Mary  got  the  football.  She  went  to  the  kitchen.  She  left  the  ball  there.」 が与えられた場合、前処理理(extract  relations:  coreference,  hypernymy)した後、 ⼆二項間の関係をエッジとみなして、sequential  linksの情報に付加する. 【the  content  of  memory】:  メモリーの構成要素 linkのrepresentationとedge  labelで構成される.edge  labelは、 それぞれ異異なるメモリーのタイプを⽰示す. RNN Sequential  links Memory   Graph  (relation)  / link  representation/edge  label MAGE  RNN   提案⼿手法
  8. 8. 03:  Introduction -‐‑‒  MAGE  RNN  (the  Memory  as  Acyclic  Graph  Encoding  RNN/GRU) •  トポロジカルソート(本来の系列列順序を考慮する)を⽤用いて、グラフを 2つのDAGs(Directed  Acycle  Graph)に分解. •  DAG情報とエッジタイプに従って、モデル内の計算の伝搬を⾏行行う. 本研究では、 •  MAGE-‐‑‒RNNをtext  comprehension  taskにおけるcoreference  relationの モデリングに⽤用いる.ここでは、与えられた⽂文書へのクエリの回答となる. •  text  comprehension⽤用に、共参照関係の明⽰示的な記憶を⽤用いる形で RNNを拡張する. •  MAGE-‐‑‒GRUでは、⼊入⼒力力に共参照関係の特徴を加えた普通のGRUに⽐比べて、 確実に改善する結果となっている. •  ベンチマークセット:CNN  dataset  /  bAbi  QA  tasks  /  LAMBADA   datasetの3つのデータで最⾼高精度度を達成した. •  学習したrepresentationの分析では、⽂文書内のentityに関してちょうど良良 い粒粒度度の情報で効果的にエンコードできることを⽰示す.
  9. 9. 1.   Introduction 2.   Related  Work 3.   Methods 4.   Experiments 5.   Results
  10. 10. 04:  Related  Work 系列列データ  +  付加的な構造データ  を取り込むニューラルネットモデル Graph  Neural  Networks -‐‑‒  The  graph  neural  network  model  [Scarselli  et  al,  IEEEʼ’09] Gated  Graph  Sequential  Neural  Networks -‐‑‒  Gated  graph  sequential  neural  netoworks  [Li  et  al,  ICLRʼ’016] グラフニューラルネット  について  : 各時刻の要素(ノード)に対して、与えられたグラフ構造から隣隣接ノードからの⼊入リン クに基づいて要素の情報を更更新(伝搬)する.  /  計算量量:O(node-‐‑‒size*time-‐‑‒step) Reading  comprehension  について  : -‐‑‒  共参照関係を使う場合の⽅方が使わない場合よりも良良い精度度となることを⽰示した. Emergent  logical  structure  in  vector  representations  of  neural  readers [Wang  et  al,  Preprintʼ’2017] Tracking  the  world  state  with  recurrent  entity  networks. [Henaff  et  al,  xrXivʼ’2017] -‐‑‒  提案⼿手法に関連する⼿手法.Recurrent  Entity  Network  architecture. -‐‑‒  提案法は、coreference  representationにもentity側の情報を与え、相互作⽤用を考慮.
  11. 11. 1.   Introduction 2.   Related  Work 3.   Methods 4.   Experiments 5.   Results
  12. 12. -‐‑‒1:  データ処理理と最適化の⼿手続き 1.  データセットに対して共参照関係(coreference)等を抽出する前処理理を施す. 2.  ⼊入⼒力力のsequence  links  や  coreference  から単語をノード、関係をエッジとみなし、 有向グラフを作る. 3.  有向エッジの逆⽅方向エッジを加え双⽅方向エッジのグラフを作る. 4.  順⽅方向グラフと逆⽅方向グラフの2つに分解し、これらをDAGとみなす. 5.  トポロジカルソートを⾏行行い、情報の伝搬順序を求める.(今回は、sequence  links があるので、普通に語順通りの⼊入⼒力力となる気がする.) 6.  (以下、順⽅方向グラフと逆⽅方向グラフで操作が同じため順⽅方向グラフの⼿手続きのみ 記述.)【論論⽂文-‐‑‒数式(1)】順⽅方向グラフから、各ノードに対して⼊入⽅方向エッジで繋 がっているノードとそのエッジのタイプのtriplet集合を求める.例例:nodeがnodeʼ’か らtypeAのエッジを向けられている時:triplet-‐‑‒(nodeʼ’,  node,  edge-‐‑‒typeA) 7.  【論論⽂文-‐‑‒数式(2)】(エッジ別の隠れ状態の計算)各ノードは、エッジtype毎に隠れ 状態を保有し、前⼿手続きで求めたtriplet集合に従って次時刻(伝搬先ノードへ)の 隠れ状態の計算を⾏行行う. 8.  【論論⽂文-‐‑‒数式(3)】(ノードの隠れ状態の計算)エッジtype毎に計算された隠れ状態 をconcatし、そのノードの隠れ状態とする. 9.  【論論⽂文-‐‑‒数式(4)】(伝搬計算)ノードの隠れ状態を⽤用いて、次時刻の隠れ状態を計 算する⼿手続きに移⾏行行する→  7  へ
  13. 13. -‐‑‒2:  データ処理理と最適化の⼿手続き-‐‑‒1 ⿊黒線:  sequential  links  /  ⾚赤線:  coreference  relations  /  緑線:  hypo・hypernymy Mary  got  the  football.  She  went  to  the  kitchen.  She  left  the  ball   there. データセット: 前処理理後:データセット+単語間の関係グラフ(共参照等)情報   ・論論⽂文中では、Stanford  CoreNLP  Parser  を使⽤用して関係を抽出.   ・関係の種類毎に  エッジtype  を設定. 前処理理 1.  データセットに対して共参照関係(coreference)等を抽出する前処理理を施す. 2.  ⼊入⼒力力の  sequence  links  や  coreference  から単語をノード、関係をエッジ とみなし、有向グラフを作る. 3.  有向エッジの逆⽅方向エッジを加え双⽅方向エッジのグラフを作る.
  14. 14. -‐‑‒3:  データ処理理と最適化の⼿手続き-‐‑‒1 4.  順⽅方向グラフと逆⽅方向グラフの2つに分解し、これらをDAGとみなす. 5.トポロジカルソートを⾏行行い、情報の伝搬順序を求める.    (今回は、sequence  linksがあるので、普通に語順通りの⼊入⼒力力となる気がする.) 順⽅方向 逆⽅方向
  15. 15. -‐‑‒4:  データ処理理と最適化の⼿手続き-‐‑‒1 (以下、順⽅方向グラフと逆⽅方向グラフで操作が同じため順⽅方向グラフの⼿手続きのみ記述.) 6.  【論論⽂文-‐‑‒数式(1)】順⽅方向グラフから、各ノードに対して⼊入⽅方向エッジで     繋がっているノードとそのエッジのタイプのtriplet集合を求める.         例例  :  node  が  nodeʼ’  から  typeAのエッジ  を向けられている時:                        >  triplet-‐‑‒(nodeʼ’,  node,  edge-‐‑‒typeA) mary football she went she ⼊入⼒力力系列列(順⽅方向グラフ)右から5番⽬目の  she  のtriplet集合:   =  {  (mary,  she,  red),  (football,  she,  black)  } 順⽅方向 Ιf (she) Ιf (she) 【具体例例】
  16. 16. ht e ~ act _ func W e xt + Ue,e' hk e' (k,e')∈Ι ∑ + bh e $ % && ' ( )) -‐‑‒5:  データ処理理と最適化の⼿手続き-‐‑‒1 7.【論論⽂文-‐‑‒数式(2)】(エッジ別の隠れ状態の計算)各ノードは、エッジtype毎に隠れ         状態を保有し、前⼿手続きで求めたtriplet集合に従って次時刻(伝搬先ノードへ)の      隠れ状態の計算を⾏行行う. t node  t hk orange hk blue hk black k node  k 出エッジを持つノードは、エッジのtype毎に状態ベクトルを持つ. 各ノードに対して、各エッジtype毎の状態ベクトルを計算する. 詳細・例例)ノードtのorange-‐‑‒typeの(エッジを表す)隠れ状態の計算は、ノードkから出る全ての           エッジtypeの隠れ状態から計算(sum)される.
  17. 17. -‐‑‒6:  データ処理理と最適化の⼿手続き-‐‑‒1 8.  【論論⽂文-‐‑‒数式(3)】(ノードの隠れ状態の計算)エッジtype毎に計算された隠れ状態     をconcatし、そのノードの隠れ状態とする. t node  t エッジtype 隠れ状態 orange black blue green ノード  t  が保有する エッジtype毎の隠れ状態 … ht orange ht black ht blue ht green concatenate ht ノード(単語)の隠れ状態が求まれば、後は普通のRNN(GRU)                                 ※いくつか細かなところは異異なるが基本的には同じ 9.  【論論⽂文-‐‑‒数式(4)】(伝搬計算)ノードの隠れ状態を⽤用いて、次時刻の隠れ状態を     計算する⼿手続きに移⾏行行する
  18. 18. 05:  Methods 各ノードに対してinner-‐‑‒edgeで繋がれているtriplet集合を求める. 各ノードのエッジtype毎の隠れ状態を求める.(GRUベースのcell) ゲート素⼦子役 を担う項
  19. 19. 06:  Methods 各エッジtypeの隠れ状態をconcatenateして、ノードの隠れ状態を求める 各ノードの隠れ状態を使って情報の伝搬を⾏行行う.(GRUベースのcell) ゲート素⼦子役 を担う項 if ∃(t',ei ) ∈ Ι(xt ):gt ei = ht' ei else : gt ei = 0 gt = gt e1 || gt e2 || gt e3 ||... || gt eE ノードtʼ’のエッジtype:eiが ノードtと接続されていれば、 その隠れ状態をノードtの エッジtype:eiの隠れ状態に 設定する.最後にconcat.
  20. 20. 1.   Introduction 2.   Related  Work 3.   Methods 4.   Experiments 5.   Results
  21. 21. 07:  Experiments  :  Story  Based  QA  –  bAbi  dataset 本研究の実験設定: •  bAbi  dataset                :  通常の検証 •  bAbi-‐‑‒mix  dataset  :  本研究オリジナルの設定  【bAbi  dataset】 20個のtoy  taskで構成される.データの内容については、ある環境下で⽬目的物 (entity)に対して操作が⾏行行なわれるような簡単なストーリーが描かれている. タスク内容はそれぞれ異異なっていて、⽬目的物に関するchaining  facts,  counting,   deduction,  induction等の  reasoning  ability  を試すものとなっている.  【bAbi-‐‑‒mix】:  本研究のオリジナル形式 1.  2つの異異なるストーリーを選出. 2.  Entity  mentionを⽚片⽅方のストーリーに統⼀一(張り替え) 3.  2つのストーリーをランダムに混合        (恐らく時系列列は壊さず、ストーリーだけ混ぜている.) 4.    ⽚片⽅方のストーリーに関する質問を⾏行行う. 提案法のDAG構造をモデルに組み込むことで⼊入⼒力力系列列における⻑⾧長期的依存性を考慮 できているか否か、の有効性の検証のため作成.
  22. 22. 08:  Experiments  :  Story  Based  QA  –  bAbi  dataset Error  rate  on  the  20  bAbi  tasks. Task  3      :    [Class  name]  WhereWasObject  /  Factoid  QA  with  three  supporting  facts Task  16  :    [Class  name]  Induction  /  Basic  induction  (誘導) GA  :  GA  Reader -‐‑‒  Gated-‐‑‒attention  readers  for  text  comprehension  [arXiv:1606.01549,  2016] RQN  :  Query  Reduction  Networks -‐‑‒  Query-‐‑‒reduction  networks  for  question  answering  [Seo  et  al,  iclrʼ’17]
  23. 23. 09:  Experiments  :  Story  Based  QA  –  bAbi  dataset Error  rate  over  20tasks  on  bAbi  mix. QRNはreading  comprehensionで現⾏行行の最⾼高精度度モデル.平均的に error  rateが下がっている.また、Task  3に関してだけ⽐比較すると⼤大 きくerror  rateが下がっていることが分かる.
  24. 24. 10:  Experiments  :  Story  Based  QA  –  bAbi  dataset Task  7 ストーリー (上から下⽅方向に時系列列) 質問:Sandraは、いくつモノを運んで いますか? Sandraは、⾼高速道路路へ向かった. None Sandraは、そこでアップルを⼿手に取った. 1 Danielは、キッチンへ移動した. 1 Sandraは、そこでミルクを⼿手に取った. 2 (提案法を導⼊入) <ストーリー>
  25. 25. 11:  Experiments  :  Story  Based  QA  –  bAbi  dataset Task  8 (提案法を導⼊入) ストーリー  (上から下⽅方向に時系列列) 質問:Johnは、何を運んでいますか? Daniel  は、オフィスへ向かった. Nothing Jhonは、そこで  アップル  を  ⼿手に取った. Apple Sandoraは、お⾵風呂呂に⼊入りに⾏行行った. Apple Jhonは、アップル  を  ⼿手放した. Nothing Danielは、キッチンに向かった. Nothing Jhonは、そこで  アップル  を  ⼿手に取った. Apple <ストーリー>
  26. 26. 12:  Experiments  :  Broad  Context  Language  Modeling  【LAMBADA  dataset】 与えられたセンテンスの最後の単語を予測するタスクに関するデータセット. 4,5  sentenceほどの⽂文章が与えられ、⽂文末の最後の単語を予測.研究対象とな るモデルは与えられた⽂文章・談話内容を広く理理解する必要があり、難しいタスク. 標準的なLMでは、正解率率率が7.3% ほど.Chu  et  al(2016)のモデル で49%まで正解率率率が向上. Chuのモデルは、最後のセンテン スをクエリとみなして、残りの⽂文 章から正解単語を抽出する⽅方式. 提案法は、事前にStanford   CoreNLP  Parserで、与えられる ⽂文章を前処理理.⽐比較⼿手法に対して 優位な結果を⽰示している. (※  extract  co-‐‑‒reference  chains)
  27. 27. 13:  Experiments  :  Broad  Context  Language  Modeling Table  4:GAモデルとco-‐‑‒reference情報が付加されたGA+MAREモデルと の⽐比較.Chu  et  al(2016)の研究から、利利⽤用可能な100個の⼈人⼿手によってラ ベリングされたvalid⽤用サンプル.最も精度度向上したラベルは、single  name   cue,  semantic  trigger,  coreference,  external  knowledge  labels.
  28. 28. 14:  Experiments  :  Broad  Context  Language  Modeling 実際の予測例例 GAモデルは、2例例のどちらも 不不正解となっている.⼀一⽅方で、 GA+MAGEモデルは、共参照 情報からentityを追尾できて おり、正解できている.
  29. 29. 15:  Experiments  :  Cloze-‐‑‒style  QA  【CNN  dataset】 ニュース記事と⽳穴埋め問題のペアから構成 されるデータセット. Accuracies  on  CNN  dataset データセット側で、事前にnamed  entityとその 正解単語の置き換えがなされており、当該データ セットに対しては外部ツール(Stanford  CoreNLP   Parser等)を⽤用いることなく、共参照関係を抽出 できた.(⽂文章中のentity-‐‑‒idで追跡できる.) 先⾏行行研究の⼿手法に⽐比べて、0.7%程の精度度改善が⾒見見られ最⾼高精度度を⽰示した. また、データセットから得られる情報以上のものを外部から⽤用いてはいない.
  30. 30. 1.   Introduction 2.   Related  Work 3.   Methods 4.   Experiments 5.   Results
  31. 31. 16:  Results •  単語間の⾔言語的な相互作⽤用を形式的な知識識としてRNNに導⼊入する枠組みを提案. •  MAGE-‐‑‒RNNは、別々のエッジtype毎にパラメータを持ち、隠れ状態も別々に保有. 各ノード(単語)は、エッジtype毎の隠れ状態をもつ. •  coreference情報は、Machine  comprehension  modelにとって有⽤用な、重要な ⾔言語知識識のタイプのひとつである. •  本研究では、前処理理を通した情報を外部から明⽰示的にモデルに与える形式をとっ た.この研究の結果から、他にも潜在的にタスクに役⽴立立つ知識識ーdependency   parsing,  semantic  role  label,  semantic  frames,  ontologies(Wordnet),   database(Freebase)ーがありそうだ. •  今後の研究のひとつの⽅方向性として、エッジtype上にattention機構を導⼊入して MAGE-‐‑‒RNNに組み込み、様々なデータセットやその⼤大きさを変えながら、 attentionの分布(振る舞い)を分析する、といったことがある.
  32. 32. END

×