Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

crossnoteの機械学習でWikipediaの記事を分類する

2,292 views

Published on

crossnoteの機械学習でWikipediaの記事を分類する

Published in: Software
  • Be the first to comment

  • Be the first to like this

crossnoteの機械学習でWikipediaの記事を分類する

  1. 1. Wikipediaの記事を内容に応じて分類する 2016 update It, Inc. ML
  2. 2. はじめに crossnote ML は これに機械学習の機能を追加するものです。 本機能によって、crossnote が管理しているドキュメントを 様々な観点で自動的に分類することができるようになりました。 どういった分類ができるか、具体的な例で説明いたします。 crossnote(クロスノート) は 文書を仕事にする人たちの 共同作業を支援する 総合文書管理ソフトです
  3. 3. Wikipediaの記事を内容に応じて分類する Wikipedia上にある哺乳類の項目から「分布」「生体」「形態」について記述されて いる箇所を抜き出して、正しく分類できるか試してみました。 どの程度の精度で分類できるでしょうか?
  4. 4. 準備 使用したデータ 哺乳類の 分布、生態、形態について記述された箇所、各100件 を使用して 分類方法を学習させました。 Wikipedia の記事を利用しました
  5. 5. 哺乳類の分類成績 分類成績は非常に良好で、平均正解率は なんと97%でした。 では、哺乳類での学習結果を用いて、鳥類や昆虫は分類できるでしょうか? 正解率はどの項目も非常に高い
  6. 6. 他の種族の分類結果 異なる種族についての記事にもかかわらず 平均 90.1% の精度で分類できました 哺乳類での学習結果を用いて、鳥類、魚類、昆虫の記事を分類してみました。 正解率 鳥類 95.6 % 魚類 83.3% 昆虫 93.0% 学習したものと異なる分野の文章でも 似たような語句が使用されていれば分類可能です
  7. 7. エラー分析 どんな記事を誤分類しているか確認してみました。 「分布」の記事を「生態」と間違った例 「形態」の記事を「分布」と間違った例 よく読むと生態についても書いてある よく読むと分布についても書いてある 機械学習による分類の方が、人が分類するより適切な場合があります Point! 日本、フィリピン?(ルソン島)冬季になるとフィリピンへ南下し越冬すると考えられ。日本では繁 殖のため夏季に伊豆諸島や中之島_(鹿児島県)|中之島に飛来(夏鳥)し、冬季には伊豆諸島や南西列 島で発見例がある。福岡県春日市の白水大池公園で2012年1月に発見されたとの新聞記事があると言 われるが、出典が不明で同定の経緯や証拠の有無など詳細は不明である。 ファイル: Oounagi070224.jpg|thumb|right|オオウナギ(Anguilla marmorata)。ウナギ科魚類 中の最大種。アフリカ東岸からポリネシアまで、その分布範囲は極めて広いが。これに加えて筋節の 数、消化管の形状および肛門の位置を比較することで、本科のレプトケファルスであることを同定で きる。
  8. 8. 業務適用 ある分野の学習結果を、類似した異なる分野に適用することができます。 また、機械の方が人より的確に分類できるケースもあります。 新製品についてのコメントで分類したいけど、コメント数が少ない。 類似した製品のコメントならたくさんあるんだけど・・・ こんな場合に応用できます
  9. 9. 社名 アップデイティット株式会社 英文社名 update it, Inc. 所在地 〒224-0001 横浜市都筑区中川1丁目6-35 中川カスケード201 TEL 045-910-5825 MAIL info@updateit.co.jp 本書は crossnote ver1.7.12 (2016/8 リリース)に基づいて作成しています。 最新の情報につきましては、弊社ホームページ http://www.updateit.co.jp をご覧ください。 さらに詳しい内容につきましては、下記までお問い合わせください。

×