Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Nlp2016 sekizawa

244 views

Published on

言語処理学会第22回年次大会

Published in: Education
  • Be the first to comment

  • Be the first to like this

Nlp2016 sekizawa

  1. 1. 語構成情報と言い換えパターンを用いた 二字漢字の句への言い換え 首都大学東京 関沢祐樹, 梶原智之, 小町守 2016/03/09 1
  2. 2. 語構成情報と言い換えパターンを用いた 二字漢字の句への言い換え 2016/03/09 2 言い換え 機械翻訳 情報検索 自動要約 単語 à 単語 の言い換えの研究 : 多 単語 à 句 の言い換えに取り組む 漢字1字 1つの意味を表す 単語 : 句や文を構成する基本単位 JUMAN辞書の単語 à半数は二字漢字
  3. 3. 語構成情報と言い換えパターンを用いた 二字漢字の句への言い換え 2016/03/09 3 言い換え 機械翻訳 情報検索 自動要約 単語 à 単語 の言い換えの研究 : 多 単語 à 句 の言い換えに取り組む 漢字1字 1つの意味を表す 単語 : 句や文を構成する基本単位 漢字の意味を考慮して 二字漢字を句へと言い換える JUMAN辞書の単語 à半数は二字漢字
  4. 4. 関連研究 •  萩行ら[1]は定義文の二字漢字の対応部 à 言い換え •  定義文に対応部分無し à 言い換え •  竹内[2]はサ変名詞をガ格、ヲ格、 ニ格、カラ格をもつ 動詞句へと言い換え •  言い換えたのはサ変名詞のみ 2016/03/09 4 [1]萩行正嗣, 黒橋禎夫, 辞書定義文を用いた二字漢語の言い換え表現の生成, 言語処理学会第 15 回年次大会発表論文集, pp.256-259, 2009. [2]竹内孔一, 語彙概念構造による動詞辞書の作成, 言語処理学会 第 10 回年次大会発表論文集, pp,576-579, 2004. 網羅的な言い換えを目指す 提案手法
  5. 5. 提案手法 2016/03/09 5 言い換えパターンを作成 言い換え候補を生成 二字漢字の単語ベクトルと 言い換え候補の句ベクトルを学習 適切な言い換えを選択 ① ② ③ ④
  6. 6. ①言い換えパターンを作成 2016/03/09 6 各語構成漢字が とりうる品詞 各語構成漢字の 係り受け関係 名1の名2    名1と名2      形名1と形名2 動1名2     名1からの名2     形1名2 名2を動1    名1に動2          副1動2
  7. 7. ②言い換え候補の生成 •  明らかに意味の通らないもの à Web日本語Nグラム第1版にない句を除外 2016/03/09 7 形1名2 悪い意味 邪悪な意思 悪名高い要注意… 悪意 名1と名2 憎悪と殺意 嫌悪と敵意 悪党と好意… 悪意
  8. 8. 言い換え候補の生成例 単語 パターン 言い換え候補例 家宝 名1の名2 家の宝 縦横 名1と名2 縦と横 大小 形名1と形名2 大きさと小ささ 信者 動1名2 信じる者 脇目 名1からの名2 脇からの目 悪評 形1名2 悪い評判 譲位 名2を動1 位を譲る 表出 名1に動2 表に出す 再会 副1動2 再び会う 一行 数1の名2 一つの行 2016/03/09 8
  9. 9. ③二字漢字の単語ベクトルと 言い換え候補の句ベクトルを学習 2016/03/09 9 V Wikipedia word2vec 言い換え 候補 (句) MeCab 好きな食べ物 / は / チョコレート / ケーキ 火災を防ぐ / 方法 / について / の / 教育
  10. 10. ④適切な言い換えを選択 •  コサイン類似度 •  悪意 à 悪い意味 2016/03/09 10
  11. 11. 実験設定 •  言い換えの対象 •  二字漢字13,213語 •  (JUMAN7.01、岩波国語辞典第五版両方に含まれる) •  提案手法はベースラインが言い換え生成しなかった 二字漢字に対して言い換えパターンを適用 •  評価指標 •  適合率、再現率、F値 •  第一著者一人が意味を保持しているかどうかで判定 •  Word2vec •  学習コーパス : 日本語Wikipedia 約9,000万文 •  50 次元、文脈窓 2、CBOW、min count = 5 2016/03/09 11
  12. 12. ベースライン •  辞書定義文を用いた二字漢語の言い換え 2016/03/09 12 萩行正嗣, 黒橋禎夫. 辞書定義文を用いた二字漢語の言い換え表現の生成. 言語処理学会第15回年次大会発表論文集, pp.256-259, 2009. 二字漢字 : 水鳥 辞書定義文 : 川や湖の水辺にすむ鳥 定義文解析 : 川や 湖の   水辺に  すむ  鳥 対応部探索 : 川や 湖の   水辺に  すむ  鳥 対応部分無し à 言い換え生成不可
  13. 13. 実験結果 2016/03/09 13 ベースライン 提案手法 言い換えた 二字漢字数 5,430 (41.1%) 9,155 (69.3%) 正しい言い換え数 (再現率) 156 (31.2%) 216 (43.2%) 適合率 75.9% 62.3% F値 0.442 0.510 v 訂正 : 提案手法の言い換え生成割合 56.0% à 69.3%     提案手法の適合率 77.1% à 62.3%     提案手法のF値 0.553 à 0.510
  14. 14. エラー分析 •  言い換えが見つからないもの •  当て字など            27個 •  例 : 海豚 •  言い換えパターンでは正しい言い換え不可 •  漢字をそのまま適用できない    63個 •  例 : 昇段、善処 •  word2vecの類似度で選択されない •  二字漢字との類似度が最大にならない  49個 2016/03/09 14
  15. 15. 語構成情報と言い換えパターンを用いた 二字漢字の句への言い換え •  語構成漢字の品詞と係り受けを使用する 言い換えパターンを用いて言い換えを行って •  先行研究よりも再現率が12.0%向上 •  先行研究よりもF値が0.068向上 •  今後の課題 •  句から句へ言い換えることへの拡張 2016/03/09 15

×