Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

分散表現に基づく文書要約#yjdsw1

2,049 views

Published on

http://yahoo-ds-event.connpass.com/event/21903/

Published in: Technology
  • Be the first to comment

分散表現に基づく文書要約#yjdsw1

  1. 1. 2015/11/11 Data & Science Workshop 「分散表現に基づく文書要約」 小林隼人
  2. 2. P2自己紹介 • 名前: 小林隼人(ハヤト・コバヤシ) • 所属: Yahoo! JAPAN 研究所(‘13年入社) 言語処理・機械学習室 • 略歴: 九大→東北大→東芝→ヤフー • 研究歴: ロボット→学習理論→言語処理 • 最近の興味: 文書要約・生成 • 最近の成果(がんばってますアピール) • ACL'14, COLING'14, PACLING'15, WWW'15, ECML-PKDD'15, SIGDIAL'15, EMNLP'15, WSDM'16, … 今日発表する内容
  3. 3. P3概要 • 論文 – Hayato Kobayashi, Masaki Noguchi, Taichi Yatsuka, “Summarization Based on Embedding Distributions”, EMNLP 2015 • 内容 – 最近流行っている分散表現を用いて類似度を計 算し文書要約(重要文抽出)する手法を提案 – 応用例 • 知恵袋の回答の要約 • 検索結果のスニペット • ツイートのまとめ作成
  4. 4. P4分散表現 • 単語やテキストの実数ベクトル表現 – 意味の近い単語は近くにマッピング 犬 猫 車
  5. 5. P5有名な例 • king – man + woman ≒ queen woman man king queen N次元空間に 意味を埋め込 めている?
  6. 6. P6今回考える問題 • 文書要約を最適化問題として定式化 文 元文書D 重要文 要約S・・・ max 𝑆⊂𝐷 𝑓 𝑆 s.t. 𝑐 𝑆 ≤ ℓ 要約の良さを表す関数 文字数制限など ここに分散表現に基づく“意味”類似度を使う
  7. 7. P7劣モジュラ最適化 • 劣モジュラ性 – 連続関数の凸性に対応する集合関数の性質 – 貪欲法でほぼ最適(1-1/e)な近似が得られる – [定義]集合関数𝑓: 2 𝑋 → ℝが劣モジュラ ⇔ 𝑆1 ⊂ 𝑆2 ⊂ 𝑋 かつ𝑥 ∈ 𝑋 ∖ 𝑆2ならば、 𝑓 𝑆1 ∪ 𝑥 − 𝑓 𝑆1 ≥ 𝑓 𝑆2 ∪ 𝑥 − 𝑓 𝑆2 f( )-f( )≧f( )-f( ) 例: センサー配置問題(監視範囲の最大化)
  8. 8. P8要約の場合 • 元文書の内容を網羅したい→劣モジュラ f(A∪{s})-f(A) f(B∪{s})-f(B) 要約A ⊂ 要約B ⇒ ≧ 文s 要約A+文s 文s 要約B+文s
  9. 9. P9修正貪欲法[Lin&Bilmes, ACL2010] • 要素のコストを考慮した貪欲法 𝑓𝐶 𝑠 ≔ 𝑓 𝐶 ∪ 𝑠 − 𝑓 𝐶 𝑤𝑠は要素𝑠の重み (単語数、バイト数など)
  10. 10. P10既存研究と本研究 • [Lin&Bilmes, ACL2010] – TFIDF重みで文の類似度の和を計算 – 文書生成的手法よりも高い性能[Lin&Bilmes, ACL2011] • [Kageback+, CVSC2014] – 分散表現で文の類似度の和を計算 – Lin&Bilmesよりも高い性能 • 本研究(課題と解決法) – 文書の類似度に基づく目的関数を2つ提案 • 個別スコアの高い文集合が全体最適とは限らない
  11. 11. P11文書ベクトルに基づく類似度 • 元文書と要約のコサイン類似度で定義 𝑓 𝐶𝑜𝑠 𝐶 ≔ 𝒗 𝐶 ⋅ 𝒗 𝐷 𝒗 𝐶 𝒗 𝐷 𝒗 𝐷: = 𝑤 𝑤∈𝑠𝑠∈𝐷 定理1.𝑓 𝐶𝑜𝑠は劣モジュラ関数ではない 文書と要約のベクトルは 単語ベクトルの和で定義 元文書 要約
  12. 12. P12点分布に基づく類似度(1) • 分散表現を点分布のまま扱う – 単一文書ベクトルは作らない – (文の分布でも良い) 要約Aの 点分布 要約Bの 点分布 元文書の 点分布 f(要約A)>f(要約B) となるようにfを定義
  13. 13. P13点分布に基づく類似度(2) • 直感:分布が似ている⇒近傍点が近くにある 要約Aの 点分布 要約Bの 点分布 最近傍点までの距離の(負の)和でfを定義する
  14. 14. P14点分布に基づく類似度(3) • 元文書分布の各点における、要約分布上の 最近傍点までの距離の和で非類似度を表す 𝑓 𝑁𝑁 𝐶 ≔ − 𝑔(𝑁 𝑤, 𝐶 ) 𝑤∈𝑠𝑠∈𝐷 𝑁 𝑤, 𝐶 ≔ min 𝑣∈𝑠:𝑠∈𝐶 𝑤≠𝑣 𝑑 𝑤, 𝑣 関数Nは単語wからの 要約C中の最近傍距離 関数gは単調非減少な 距離のスケーリング関数 定理2.𝑓 𝑁𝑁 は単調劣モジュラ関数である 𝔼[𝑓 𝑁𝑁 𝐶2 ] − 𝔼[𝑓 𝑁𝑁 (𝐶1)] > 0 ⇔ 𝐷 𝐾𝐿(𝑝 ∥ 𝑞) − 𝐷 𝐾𝐿(𝑝 ∥ 𝑞) > 0 定理3. 𝑔 𝑥 = ln 𝑥のとき𝑓 𝑁𝑁の大小は漸近的にKLDと一致する 𝐷 ∽ 𝑝, 𝐶1 ∼ 𝑞, 𝐶2 ∼ 𝑟元文書𝐷、要約𝐶1, 𝐶2について、 とすると漸近的に ([Perez-Cruz, NIPS2009][Wang+, TIT2009]などを使う)
  15. 15. P15データセットと評価指標 • Opinosis Dataset [Ganesan+, COLING2010] – 51トピック(ホテル、車、製品など)のユーザレビュー – 各トピックに50~575文 – 各トピックに4,5人が作ったサマリ(1~3文) • ROUGE-N指標 [Lin, WAS2004] – 人が作ったサマリとのNグラム共起割合 – 翻訳の評価で使われるBLEUに似た評価値 • BLEUは適合率重視、ROUGEは再現率重視 – ROUGE-1が最も人のサマリと当てはまりが良い • [Lin&Hovy, NAACL2003]
  16. 16. P16実験結果 • DocEmb: 修正貪欲法+ 𝑓 𝐶𝑜𝑠 (文書ベクトル) • EmbDist: 修正貪欲法+ 𝑓 𝑁𝑁 (点分布) s.t. 𝑔(𝑥) = ln(𝑥), 𝑥, 𝑒 𝑥 • SemEmb: [Kageback et al. CVSC2014] • TfIdf: [Lin and Bilmes, ACL2011] • ApxOpt: 修正貪欲法+ROUGE-1 EmbDistが最も適した評価指標ROUGE-1で最高性能 提案法 既存手法 近似最適解
  17. 17. P17まとめ • 分散表現に基づく文書類似度を提案し、比較実 験により提案手法の優位性を示した • 今後の課題 – クエリを考慮した類似度 • 検索結果の要約に応用 • 歪めた分布のKLD? – Earth Mover’s Distance(EMD)との関係 • 𝑔(𝑥) = 𝑥のときEMDの下界になる[Cusner+, ICML2015] – 実数空間の技を言語処理に使う
  18. 18. P18 • ご清聴ありがとうございました! EMNLP2015会場の様子(リスボン)

×