Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

crossnoteの機械学習で文章から作者を判別する

2,588 views

Published on

crossnoteの機械学習で文章から作者を判別する

Published in: Software
  • Be the first to comment

  • Be the first to like this

crossnoteの機械学習で文章から作者を判別する

  1. 1. 文体だけで作者を判別できるか? 2016 update It, Inc. ML
  2. 2. はじめに crossnote ML は これに機械学習の機能を追加するものです。 本機能によって、crossnote が管理しているドキュメントを 様々な観点で自動的に分類することができるようになりました。 どういった分類ができるか、具体的な例で説明いたします。 crossnote(クロスノート) は 文書を仕事にする人たちの 共同作業を支援する 総合文書管理ソフトです
  3. 3. 書籍の文章から作者を判定できるか? 文章を学習し、文体だけで作者別に分類できるか試してみました Point! 文章に現れる個性を機械は判別できるか?
  4. 4. 準備 使用したデータ 青空文庫に収蔵された書籍のうち、比較的年代が近く作品数の多い著者を選びました。 著者 森鴎外 122 篇 夏目漱石 101 篇 太宰治 248 篇 坂口安吾 376 篇 芥川龍之介 355 篇 宮沢賢治 248 篇 データ数は十分です ※青空文庫とは著作権が消滅した作品を公開している インターネット上の図書館です。
  5. 5. フィルター設定 フィルター設定 吾輩は猫である 夏目漱石 一 吾輩(わがはい)は猫である。名前はまだ 無い。 どこで生れたかとんと見当(けんとう)が つかぬ。何でも薄暗いじめじめした所で ニャーニャー泣いていた 文章例 用意したデータには書名と作者名が入っています。 今回は、文章のみで作者を判別できるか 確認したいので、 作者名を機械が学習しないよう、フィルターで除去しました。 分類に使用したくない単語はフィルター機能で取り除くことができます 作者名がある
  6. 6. 分類結果 非常に好成績で平均で80%以上の正解率でした。 文体というなかなか明確に違いを示せないものでも 機械学習を用いることで精度良く分類することができます。 データ数が十分にあったため、予想以上に好成績でした。 特に宮沢賢治の成績が良好なのは、独特な表現 を用いているからだと思われます。
  7. 7. おまけの考察 再現率とは、本来分類されるべきものうち、 正しく分類されたものの割合です 漱石と鴎外は再現率が低いことから、この二人の文章は他の作者が書いたものと誤認されやすいことがわか ります。 これは後世の作家が、似たような表現を使用している可能性があります。 それだけ影響力が強かったのかもしれません。 著者 再現率 森鴎外 54 % 夏目漱石 57 % 太宰治 81 % 坂口安吾 90 % 芥川龍之介 82 % 宮沢賢治 91 %
  8. 8. 業務適用 一定量のデータがあれば、明文化しにくい特徴も機械が学習し分類することができます。 大量の技術文章を自動で分類したい コールセンターで受け付けた内容を分類し、素早く検索したい こんな場合に応用できます また、人が全てに目を通すのが困難な長い文章や大量の文章でも機械なら自動で分類します。
  9. 9. 社名 アップデイティット株式会社 英文社名 update it, Inc. 所在地 〒224-0001 横浜市都筑区中川1丁目6-35 中川カスケード201 TEL 045-910-5825 MAIL info@updateit.co.jp 本書は crossnote ver1.7.12 (2016/8 リリース)に基づいて作成しています。 最新の情報につきましては、弊社ホームページ http://www.updateit.co.jp をご覧ください。 さらに詳しい内容につきましては、下記までお問い合わせください。

×