Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy Liang, Christopher D. Manning

4,514 views

Published on

最先端NLP勉強会で紹介した論文の紹介スライドです

Published in: Technology
  • Be the first to comment

最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy Liang, Christopher D. Manning

  1. 1. 最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy Liang, Christopher D. Manning (株)Preferred Networks 海野 裕也 2016/09/11 第8回最先端NLP勉強会
  2. 2. 2 startからgoalになるような 「指⽰」を⾃由に書く
  3. 3. 3 きっと茶⾊を消したんだろう
  4. 4. 4 完全に無視!!
  5. 5. 5 候補の中から正し い⾏動の結果を選 択
  6. 6. 6 指⽰と操作のペアを学習
  7. 7. 同じようにして何問か教える 7
  8. 8. 8 さっき⾒たやつだ!
  9. 9. 9 ちゃんと学習されてる!
  10. 10. 概要 l  ⾔語理解関わる⾔語ゲームを設計した l  理解を促進するための排他的な理解を⾏うため のモデルを提案実装した l  クラウドワーカーに⾔語を教えるタスクをやっ てもらい、⾔語を教えてもらった l  どのように⼈間が教えるのかも含めて興味深い データを取った 10
  11. 11. 所感 l  設計が優れている l  ⾔語の理解に関わるタスクはbAbIなど⾮現実的な⽂ か、難しい「⼤⼈」の⽂が中⼼だった l  「簡単なタスク+⾃然な⽂」の設計にすることで、 現実的な⽂でありながら複雑な知識を利⽤しないタ スクができた l  ⾃⼰完結的である l  これまでの、「まずデータを作る、そして問題を解 く」というタイプではなくて、「データを作りなが ら問題を解く」 l  学習する過程そのものに焦点があたっている 11
  12. 12. SHRDURNゲーム l  初期状態: s in Y l  ⽬的状態: t in Y (⼈間だけに⾒せる) l  指⽰: x (⼈間が出す e.g. “remove red”) l  候補: Z = [z1, …, zK] K個提⽰ l  zは後述する⽂法から⽣成、例えば remove(leftmost(with(red))) l  次状態: Y = [y1, …, yK] ただし、yi = [zi]s l  ⼈間が正しいyiを選択 12
  13. 13. Semantic parsing model l  x(指⽰)とz(⾏動)の対応は対数線形モデル l  特徴(φ)はありがちなもの l  指⽰x中のn-gram(skip-gram含む) l  ⾏動z中のtree-gram l  特別な⼯夫はない 13
  14. 14. 論理形式zの⽣成 l  p(z|x)に基づいてzを⽣成する必要がある l  上記⽂法規則を使って⽣成する l  ビームサーチを利⽤する 14
  15. 15. 学習 l  AdaGradで最適化 15
  16. 16. 排他的な理解のモデル化 l  “remove red”のあとに、”remove cyan”が来る と、⼈は両者は別の指⽰だと思う l  現状の、特徴ベースの学習の場合、類似の特徴 が発⽕するため両者を同じと判定してしまう l  「指⽰は排他的である」という判断ができるよ うにしたい 16
  17. 17. 事前分布による排他性の実現 l  Speaker(ユーザー)とListener(システム)の 発話xと理解zの事前分布を⼊れる l  p(x)とp(z)のおかげで、各発⾔が別々の意味を 持つように、補正される l  雑な印象は受ける・・・ 17
  18. 18. 事前分布がuniformだとしたときの効果の例 18 1になるよ う正規化 1になるよ う正規化
  19. 19. 学習⽅法 19
  20. 20. 更新式の詳細 20 zをサンプリ ングしたい xは無視 p(z)を近似: P 正規化係数を近似: 1/Q 正規化係数 p(z)
  21. 21. 実験⽅法 l  Amazon Mechanical Turkで、100⼈に3ドルずつ l  ゲームは5段階の難易度で、10タスクずつ l  100⼈全部で6時間しかかからなかった l  1⼈1時間程度 l  20⼈位は何したら良いのかわからなかった 21
  22. 22. ⼈間の観察 l  だいたい英語だが、⼈によってバリエーションが有る l  5⼈だけ、謎の⾔語を開発 l  別の⾔語の⼈も l  多くは、⼀貫性のある表現を使う(removeだけ使う、 など) 22
  23. 23. ⾯⽩い例 23 コマンドライン ⾵ 暗号
  24. 24. ⼿法の⽐較 l  memorize: 発⾔xと⾏動zそのものを特徴にする l  half: 発⾔xだけ特徴をとるが、⾏動zはそのものを特徴 l  prag: 排他性を考慮した学習 24
  25. 25. まとめ l  ⾔語理解のための新しいタスクを作った l  簡単なタスクに対して、⼈間に指⽰を出させる l  オンラインで学習して、データを作りながら学 習を⾏う実験を⾏えるようにした l  排他制御のモデルを作って実装した l  ⼈間の反応を含めて興味深い傾向があった l  実験結果や⼿法そのものよりも、タスク設計や 実験のやり⽅が⾮常に興味深かった 25

×