Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

1,954 views

Published on

ACL2018読み会の発表資料です。

Published in: Science
  • Be the first to comment

ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

  1. 1. Learning to Ask Good Questions Ranking Clarification Questions using Neural Expected Value of Perfect Information Sudha Rao1 and Hal Daumé III1,2 1. University of Maryland 2. Microsoft Research 2018-07-08 ACL2018読み会 西山 莉紗 @chopstickexe https://arxiv.org/abs/1805.04655
  2. 2. どんな論文? https://acl2018.org/2018/06/10/best-papers/
  3. 3. どんな論文? Contributions 1. Clarification question rankingという新しいタスクを定義 2. 新しいタスクのための新しいニューラルネットワークモデルを提案 3. 新しいタスクのための新しいデータセットを作成・公開 コードとデータセット: https://github.com/raosudha89/ranking_clarification_questions
  4. 4. 新しいタスク: Clarification Question Ranking 1. What version of Ubuntu do you have? 2. What is the make of your wifi card? 3. Are you running Ubuntu 14.10 kernel 4.4.0- 59-generic on an x86_64 architecture? … How to configure path or set environment variables for installation? I’m aiming to install ape. I’m having this error message while running… Community Q&Aサイトへの新規投稿 (Post) Past Clarification Questions 投稿内容の解決に役立つ回答 (Answer) を 得られることが期待できる順に並べられた 他ユーザーからの確認質問 (Question) Clarification Question Ranking
  5. 5. Clarification Question Rankingを解くため のJoint NN model Feedforward NN (5 hidden layers) 𝑭ans( 𝒑, 𝒒) Feedforward NN (5 hidden layers) Post word embeddings Post repr. 𝒑 LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg Question word embeddings Answer word embeddings Question repr. 𝒒 Answer repr. 𝒂 𝑭util( 𝒑, 𝒒, 𝒂) pとqからaが得られる確率(後述) aを得ることの価値(後述) qのスコア: qを聞くことで得られる価値の期待値
  6. 6. 学習・評価用データセットの作成 (詳しくは後述しますが色々大変) • StackExchangeのdata dumpを利用 • Original postの抽出 • Clarification questionの抽出 • Postのコメントの先頭から「?」までを抽出 • Clarification questionでないものを除外するためのルールを作成 • Answerの抽出 • 元のPostを改訂して回答するケース: Questionとタイムスタンプが最も近い 版の追記内容を抽出 • Questionの返答として回答するケース: Authorによる最初のコメントを抽出 • どちらも取れた場合は質問とコサイン類似度が高い方をAnswerとして抽出
  7. 7. 評価結果 評価者1 or 2がBest questionと 判定したものが正解 評価者1と2がValid questionと 判定したものが正解 評価用postにもともと投稿され ていたqが正解 どの正解を使っても提案手法がoutperform (一位に正解questionが来る割合が21〜36%) non-neuralの皆さん 回答確率 を無視して だけをFNNの入力変えて 学習・推定する皆さん
  8. 8. 超・進行押してたらここまで 論文すごくわかりやすいので是非読んでください
  9. 9. Expected Value of Perfect Information (EVPI) (Avriel and Williams, 1970) https://www.jstor.org/stable/169369 EVPI = 未知の状況zを知っている状態で得られる報酬 - 現状で最善と考えられる行動xを選択した場合の報酬 と定義: φが凹関数であれば、EVPIの値域はzの期待値を利用して計算できることを証明:
  10. 10. 本論文の Expected Value of Perfect Information • 行動x Clarification question • 未知の状況z Clarification questionに対する回答(Answer) • 価値関数φ Answerによってpostに付与される価値 (Utility) としてφの期待値を計算
  11. 11. 提案モデル(推定時) 10個のQuestion候補をEVPIの値でリランキングする
  12. 12. Q&A candidate generator 普通のTF-IDFベースのランキング
  13. 13. Answer Modeling(推定時) 1- Feedforward NNで得られるanswer表現 (Fans) とajのコサイン類似度 ajと、qiに元々付与されていたQuestion (qj)のコサイン類似度
  14. 14. Utility Calculator(推定時) ※実際はqjも使っている Feedforward NNで得られるpost+answerの表現
  15. 15. Clarification Question Rankingを解くため のJoint NN model Feedforward NN (5 hidden layers) 𝑭ans( 𝒑, 𝒒) Feedforward NN (5 hidden layers) Post word embeddings Post repr. 𝒑 LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg LSTM (1 hidden layer) Avg Question word embeddings Answer word embeddings Question repr. 𝒒 Answer repr. 𝒂 𝑭util( 𝒑, 𝒒, 𝒂) pとqからaが得られる確率(後述) aを得ることの価値(後述) qのスコア: qを聞くことで得られる価値の期待値 再掲
  16. 16. 3つのLSTMと2つのFNNを学習するため のloss関数 y=0(pi, q1, a1) y=0(pi, q10, a10) (pi, qi, ai) y=1 Fansが • オリジナルの回答aiに近く かつ • qiと似ている他のqの回答ajに近くなるように学習 がオリジナルのp, q, a tripleに 対して最大値1を取るように学習 学習データ
  17. 17. 学習・評価用データセットの作成 • StackExchangeのdata dumpを利用 • Original postの抽出 • Clarification questionの抽出 • Postのコメントの先頭から「?」までを抽出 • Clarification questionでないものを除外するためのルールを作成 • Answerの抽出 • 元のPostを改訂して回答するケース: Questionとタイムスタンプが最も近い 版の追記内容を抽出 • Questionの返答として回答するケース: Authorによる最初のコメントを抽出 • どちらも取れた場合は質問とコサイン類似度が高い方をAnswerとして抽出 再掲
  18. 18. 作成したデータセット: 77,097 triples ※この3トピックが選ばれているのは、データ数とClarification questionの投稿のされやすさに 基づいているのだと思います
  19. 19. 評価方法1: もともと付与されていたqを正解とみなす • テストセットのポストpに元々付与されていたqを「正解」と みなして評価する • 問題点 • 元々付与されていたqとして、clarificationでないquestionが混ざって いることがある • (がんばったけど)データセットがまだNoisy • 全体の9% • 元々付与されていたq以外の有効なclarification questionを不正解とし てしまう
  20. 20. 評価方法2: Domain Expert呼んできてアノテーション • クラウドソーシングでUnixの知識があるアノテーターを10人招集 • 1つのExample (p + 10q)を2人がアノテーション • pと順番をばらした10件のqを渡し、以下の2種類のアノテーションを依頼 • Best: 1件の最も優れたq • Valid: Bestを含めた1件以上の質問する意義のありそうなq • Kappa統計量 • Bestについて厳密に計算すると0.15 • 1人がBestでもう一人がValidでも一致したことにすると0.87 • Valid同士の一致は0.58
  21. 21. 2人のアノテーターがvalidとした question数の分布 • 85%以上のpostが2つ以上のvalid questionを持つ • Original以外のquestionもvalidとされているので、人手でアノテーションする意義はある
  22. 22. 対抗手法 • Random: 10個のcandidate question適当に並べ替え • Bag-of-ngrams: bag-of-ngramモデルで学習したUtilityを使って ランキング (n=3) • Community QA: postに対するコメントを関連度順にランキング • 文字列類似度やword embeddingなどを用いたロジスティック回帰 • Neural baselines • 回答確率無視 • UtilityのFeedforward NNを入力変えて学習・推定 • pとq, pとa, pとqとa
  23. 23. 評価結果 評価者1 or 2がBest questionと 判定したものが正解 評価者1と2がValid questionと 判定したものが正解 評価用postにもともと投稿され ていたqが正解 どの正解を使っても提案手法がoutperform (一位に正解questionが来る割合が21〜36%) non-neuralの皆さん 回答確率 を無視して だけをFNNの入力変えて 学習・推定する皆さん 再掲
  24. 24. 以降、時間があれば話します
  25. 25. chopstickexe is 誰 • 西山 莉紗(にしやま りさ) • 略歴 • 研究員@IBM東京基礎研究所(2006-2016) • お客様の課題を解く自然言語処理ツールをPoCでゴリゴリ作る • ソフトウェアエンジニア@IBM (2017-2018) • お客様の文書データを機械学習して分類・類似度推定する機能をゴリゴリ作る • データサイエンティスト@三菱ケミカルHD (Now!) • 化学メーカー向けテキストマイニングツールを内製でゴリゴリ作る 一言でまとめると自然言語処理が得意なソフトウェアエンジニア
  26. 26. 過去にDB系で類似研究があったような ※宣伝っぽくなりましたが発表者とは全く関係のない研究グループの業績です http://db-event.jpn.org/deim2015/paper/167.pdf 回答可能確率 回答確率 質問選択問題の定式化 期待利得 (重要)
  27. 27. まとめ 1. Clarification question rankingという新しいタスクを定義 2. 新しいタスクのための新しいニューラルネットワークモデルを提案 3. 新しいタスクのための新しいデータセットを作成・公開 今後、追従研究が出てくることを期待

×