Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

単語コレクター(文章自動校正器)

9,939 views

Published on

単語コレクター(文章自動校正器)

Published in: Engineering
  • Be the first to comment

単語コレクター(文章自動校正器)

  1. 1. 単語コレクター (文章自動校正器) チーム ML 中 翔吾 大郷 友海
  2. 2. 動機 ● 作成した文章が正しい日本語を使っているか自動で校正 してほしい – 人手で確認するのが面倒&抜けが出てくる可能性も・・・ そこでJubatusと読売新聞データを使って 自動校正しようと思った! – ただし、新聞記事の本文は正しい日本語が使われているもの と仮定 – 今回は読売新聞データをつかっているので、 新米記者が書いた記事を自動校正することを想定 – 名前の意味:単語をcorrect(正しい)にする、collect(集める)
  3. 3. アーキテクチャ(学習) Jubatus (分類)読売新聞 データ.txt Mecab 単語群 語彙数のクラス に分類
  4. 4. アーキテクチャ(使用時) Jubatus (分類)入力文章.txt Mecab 単語群 分類された単語 を結合 出力文章.txt
  5. 5. 入力データ mecabで分かち書きした単語を、 1単語タイプ=1クラスラベルとして学習
  6. 6. 分類結果 [結果] : [入力] 入力自身と同じラベルのクラスに分類された。
  7. 7. 分類結果② [結果] : [入力]
  8. 8. (課題1)望む出力:「ほんま」→「本当」  ・「ほんま」が学習データに含まれていた場合、  出力が修正されない(「ほんま」→「ほんま」) 課題 (課題2):「晴れ」→「定例」 「今日は」→「定例」 「とっても」→「定例」  ・学習した単語数が少ないと、不明な分類結果となる
  9. 9. 課題 (課題3):「し」→「し」 「ます」→「ます」 「た」→「た」  望ましい出力: 「し」→「し」  「ます」→「まし」  「た」→「た」  ・ 単語に分割して直接入力しているため、前後の単語 を考慮せずに最小の単語で分類されてしまう。 そこで・・・
  10. 10. 課題 (課題3):「し」→「し」 「ます」→「ます」 「た」→「た」 入力単語を2単語一組として結合して学習する 例:
  11. 11. 分類結果③ [結果] : [入力] 「しまし」を学習することはできた
  12. 12. まとめ ・単語自身を学習することができた ・近い単語の分類(=校正)については未確認 ・単語のみの学習では不十分 →前後の文脈(単語の使用方法)を考慮 →入力を文章にする、idf等のデータ変換方法の検証 が必要

×