Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

読解支援プレゼン 4 28

277 views

Published on

読解支援 4/28

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

読解支援プレゼン 4 28

  1. 1.   語彙的対応関係の一般化に基づく   言い換え知識の拡張     藤田篤 Pierre  Isabelle   情報通信研究機構 National  Research  Council  Canada     言語処理学会第21回年次大会発表論文集   D1-­‐5,  pp.321-­‐324,  2015 紹介者:塩田健人 1
  2. 2. 概要 ・言い換えを頑健かつ精度よく自動生成するためには   多くの言い換え知識が不可欠である     ・現在の言い換え技術では精度のよい言い換えをするには   高品質な言語資源が必要    例:Catvar,  Word  Net     ・しかし、構築・保守にかかる人的コストは大きく、   高価な資源である     そこで、   『言語依存の高価な言語資源を使わずに   精度のよい言い換え手法を提案する』 2
  3. 3. 先行研究 1.単言語コーパスに基づく方法 •  分布仮説に基づいて使用される文脈が類似している (文脈類似度が高い)表現の対を言い換え表現対とし て獲得する。 •  反義関係や上位ー下位関係などの同義以外の関係を持 つ表現の対も高い文脈類似度を持つため、精度は低い。 3
  4. 4. 先行研究 2.単言語パラレル/コンパラブルコーパスに基づく方法 •  .単言語パラレル/コンパラブルコーパスの対応する文 の対における同義の部分を使い、精度よく言い換え表 現対を獲得できる。 •  単言語コーパスほどのカバレージを得ることは出来な い。 4
  5. 5. 先行研究 3.異言語パラレルコーパス(対訳コーパス)に基づく方法 •  異なる言語において共通の訳を持つ表現を言い換えと して獲得できる。 •  しかし、たとえ大きな対訳コーパスであっても単言語 コーパスに比べると極めて小さく、言い換えカバレー ジも低い 5
  6. 6. 提案手法     言い換え知識中の個々の言い換え表現対における   語彙的な対応関係に着目し、言い換えパターンの獲得     獲得した言い換えパターンを用いて、 単言語コーパスから新たな言い換え表現対を収集する   6
  7. 7. 提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 7
  8. 8. 提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 8
  9. 9. 提案手法   Amendment  of  regulation    amending  regulation     X  :  ment  of  Y  :  ϕ ⇔ X : ing Y : ϕ   investment  of  resources    investing  resources   recruitment  of  engineers    recruiting  engineers   •  上記のような元々の対とは表層的に全く異なる語で構成 される対も得られる。 9
  10. 10. 着目する語群 •  派生語   o  表記や意味の一部を共有する異なる語の群   {“develop”,  “developer”,  “development”,  …}   •  活用形/屈折形   o  活用や屈折に由来する同じ語の異なる出現形   {“amend”,  “amends”,  “amending”,  …}   •  異表記   o  同じ語の同じ活用形/屈折形の異なる表記   {“color”,  “colour”},  {“authorize”,  “authorise”,  …}   10
  11. 11. 提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 11
  12. 12. 提案手法 •  高品質なSseedを前提として   •  言い換え表現対の各辺にあり、同じ語幹をもつ語の対は、 特定の(意味的な)関係を持つ 語1      語2 接辞1 接辞2 語幹 aimed   aimed   achieving   achieving   aims   achieve   aims   achieve   X  :  ed   X  :  imed   X  :  chieving   X  :  ing X  :  s   X  :  chieve   X  :  ims   X  :  e aim   a   a   achiev   12
  13. 13. 提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 13
  14. 14. 提案手法 •  抽出した接辞パターンの品質保持のため   長さk以上の語幹n種類以上に対して   観察された接辞パターンのみを残す。 接辞1 接辞2 語幹の種類数 結果 長さ  ≥  5   長さ  <  5   X  :  chieve   X  :  chieving   X  :  ed   X  :  ing X  :  imed   X  :  ims   X  :  s   X  :  e 0   0   69   330   1   1   22   70 捨てる   捨てる   残す   残す   14
  15. 15. 新規言い換え表現の獲得 15
  16. 16. コーパス   •  Europarl   o  英仏対200万文(英語5570万語、仏語6190万語)   o  使用したコーパス   •  英語側とNews  Crawl  5,200万文、12.0億語   •  NTCIR   o  日英対320万文(英語1.07億語、日本語1.16億形態素)   o  使用したコーパス   •  英語側とNTCIRの単言語文書3,990万文、13.6億語   16
  17. 17. 問題点 People  of  Europe    European  population     People  of  X  :  ϕ  ⇔  X  :  an  population     単言語コーパスで同じ関係を持つ   (“Haiti”,  ”Haitian”),  (“suburb”,  “suburban”)だけでなく   (“uncle”,  “unclean”)など語の意味ではなく、語の形だけで 抽出されてしまう     文脈類似度を単言語コーパスから計算して、置き換え出来 ないような対を除外する 17
  18. 18. 拡張結果 SLVとSseed中の   言い換え表現対の数   SLVとSseed中の   言い換え表現対の数の比   18
  19. 19. 評価 •  評価設定   o  自動生成した言い換え文が文法的か   o  言い換え文が原文と同じ意味を持つか   •  評価方法   o  同じ原文から得られた複数の言い換え文を横並びに し、文法性、意味の等価性を人間が評価する   19
  20. 20. 評価結果 評価基準 粗い分類 細かい分類 文法性 0.64  –  0.79 0.51  –  0.56 意味の等価性 0.48  –  0.53 0.27  –  0.35 評価者各対のCohenのk 文数 文法性 意味の等価性 両方 SSeed 66 0.85 0.91 0.76 SLV 534 0.76 0.78 0.59 合計 600 0.75 0.79 0.61 自動生成した言い換え文の精度 言語依存の高価な言語資源をほとんど使用することなく、 構文解析器などを用いた従来手法と同等以上の精度を達成   20
  21. 21. 考察 文法カテゴリの変化   •  The  safety  issue  was  considered  sufficiently  serious  for  all   affected  parties  to  be  informed   •  The  safety  issue  was  sufficient  consideration  serious  for  all   affected  parties  to  be  informed   数や冠詞の違い   •  There  are  tons  of  potential  buyers  of  military  weapons   •  There  are  a  potential  buyer  of  military  weapons 21
  22. 22. まとめ 従来手法で自動的に獲得された言い換え知識を   言い換え表現対に見られる語彙的対応関係に着目し、   単言語コーパスで拡張する手法の提案     この手法は高いカバレージ、許容可能程度の精度   を達成できた     今後は、英語以外の言語、他の手法で獲得した言い換えに もこの手法を試していきたい。 22

×