Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20150702文章読解支援のための日本語の語彙平易化システム

1,160 views

Published on

  • Be the first to comment

20150702文章読解支援のための日本語の語彙平易化システム

  1. 1. 文章読解支援のための 日本語の語彙平易化システム 首都大学東京(小町研)D1 梶原 智之 kajiwara@jnlp.org https://sites.google.com/site/moguranosenshi/ 2015年7月2日 データ解析の実務プロセス入門出版記念勉強会
  2. 2. 自己紹介 •  梶原 智之 @moguranosenshi https://sites.google.com/site/moguranosenshi/ •  首都大学東京(小町研)http://cl.sd.tmu.ac.jp/ Ø  自然言語処理 Ø  言い換え・テキスト平易化 Ø  NLP若手の会プログラム委員 2
  3. 3. 大量・多様なテキストデータ 子ども 外国人 高齢者 研究の背景 アクセスは容易 理解も容易に!四国に赴く おググりください   ↓      ↓ 四国に行く  調べてください 3
  4. 4. 関連研究(英語) http://homepages.inf.ed.ac.uk/kwoodsen/demos/simplify.html https://rewordify.com/ 4 •  任意の英語のテキストをWeb上で平易化できる •  Automatic Sentence Simplification Using Wikipedia •  Rewordify.com
  5. 5. 関連研究(日本語) http://www3.nhk.or.jp/news/easy/ 5 •  特定の日本語のテキストがWeb上で平易化されている •  NHK: NEWS WEB EASY •  任意の日本語のテキストを平易化することはできない
  6. 6. 日本語の語彙平易化システムの構築 本研究の目的 読解支援を必要とする読者に 語彙平易化の技術を届ける 本研究の貢献 ・任意の日本語の文を平易化  するシステムを構築した ・日本語の平易化システムを  初めてWebで公開した http://www.jnlp.org/SNOW/S3 6
  7. 7. 語彙平易化システム 言い換え 担う:伝承する, 支える, 受け継ぐ 難解語の検出 担う 文脈に合わない語の削除 担う, 支える, 受け継ぐ 平易な順にランキング 1: 支える, 2: 受け継ぐ, 3: 担う 難解な日本語(入力文) 未来は若者が担う 平易な日本語(出力文) 未来は若者が支える 7
  8. 8. 1. 難解語の検出 •  形態素解析 •  文を単語に区切る技術 •  未来 / は / 若者 / が / 担う •  平易語リスト •  ここに含まれない単語が難解語になる •  子ども向け(小学校で習う単語リスト) •  外国人向け(日本語能力試験のレベル別単語リスト) 8
  9. 9. 2. 言い換え •  同じ意味を表す別の表現への変換 9 先生 教員 教師 教諭
  10. 10. 2. 言い換え •  分布仮説:似た意味の語は似た文脈で使われる •  __に教わる, __に尋ねる, __に叱られる  → 先生 = 教員, 先生 猫 •  うどんが__ → 好き, 嫌い (反義語) •  ___が好き → うどん, そば(類義語) •  国語辞典 •  【要求】強く求めること 要求する = 強く求める •  2回翻訳 •  先生 → Teacher → 教師   先生 = 教師 10
  11. 11. 3. 文脈に合わない語の削除 •  述語項構造解析 •  述語のガ格,ヲ格,ニ格が何か当てる技術 •  未来は若者が担う → 述語:担う, ガ格:若者 •  格フレーム辞書 •  述語のガ格,ヲ格,ニ格に何が入るかという辞書 •  先生, ニ, 尋ねる 猫, ニ, 尋ねる 11
  12. 12. 4. 平易な順にランキング •  単語そのもの •  頻度: よく使われる表現が平易 •  親密度:多くの人が知っている表現が平易 •  文脈との馴染みも見る •  N-gram頻度:単語N語の連続の頻度 12
  13. 13. システム入出力 http://www.jnlp.org/SNOW/S3 13 【百貨店】から離れがちな【顧客】を、どう引き戻すか。 【デパート】から離れがちな【お客さん】を、どう引き戻すか。 【よもや】と思う変化が【いとも】簡単に起こる。 【まさか】と思う変化が【とても】簡単に起こる。 自覚の【欠如】が【嘆かわしい】。 自覚の【不足】が【悲しい】。 その笑顔には、子供を【慈しむ】父親の【眼差し】があった。 その笑顔には、子供を【愛する】父親の【視線】があった。 【ただただ】【感嘆する】ばかりである。 【とにかく】【感動する】ばかりである。
  14. 14. システム入出力 http://www.jnlp.org/SNOW/S3 14 Input 【レタス】がさっぱり【 感 】を醸し出す Original 【 野 菜 】がさっぱり【気持ち】を醸し出す + WSD 【 野 菜 】がさっぱり【 気 分 】を醸し出す Input ∼と【 決 意 】を語る Original ∼と【決まる】を語る + WSD ∼と【 決 心 】を語る Input ASEANへの【加盟】はベトナムの発展に貢献し Original ASEANへの【入る】はベトナムの発展に貢献し + WSD ASEANへの【参加】はベトナムの発展に貢献し System Precision Original 84.4 % + WSD 89.0 % 4.6 ポイント改善
  15. 15. ツール •  形態素解析(MeCab) http://taku910.github.io/mecab/ •  述語項構造解析(SynCha) http://www.cl.cs.titech.ac.jp/ ryu-i/syncha/ 15
  16. 16. データ •  使用者数付き単語リスト http://mednlp.jp/software.html •  難易度付き単語リスト http://jhlee.sakura.ne.jp/JEV.html •  単語親密度 http://hon.gakken.jp/reference/special/ jiten/kihongo_db/index.html 16
  17. 17. データ •  言い換え辞書(単語) http://www.jnlp.org/SNOW/D2 •  言い換え辞書(フレーズ) http://isw3.naist.jp/ masahiro-mi/jppdb/ •  格フレーム辞書 http://www.gsk.or.jp/catalog/gsk2008-b/ 17
  18. 18. 第10回 NLP若手の会シンポジウム •  9/3-5(木金土) 2泊3日の合宿 •  場所:石川県の和倉温泉 •  参加費:無料(宿泊費、懇親会費は別途) •  テーマ:エンジニアリング •  自然言語処理の技術を活用したい 現場のエンジニアの方の参加を歓迎します •  スポンサーも募集しています   http://yans.anlp.jp/

×