Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

記事分類における教師データおよびモデルの管理

7,855 views

Published on

2016/03/18
エムスリー x Gunosy Beer bash!(Gunosy.beer#2)
での発表資料です。

http://gunosy-beer.connpass.com/event/28045/

Published in: Technology
  • Be the first to comment

記事分類における教師データおよびモデルの管理

  1. 1. 記事分類における 教師データおよびモデルの管理 大曽根 圭輔(Gunosy Inc.) 2016年 3月 18日
  2. 2. 2©Gunosy Inc. ● おおそね けいすけ (@dr_paradi) ● 博士 (工学) 専門はソフトコンピュ−ティング (ファジィ、ニューロ) ● 11月からデータ分析チーム ● 2015年11月入社 ● プライベートでE2D3というアプリ作ってます 自己紹介 http://e2d3.org/ja/
  3. 3. 3©Gunosy Inc. ● Excel 70% ● PowerPoint 15% ● JavaScript 7% ● R 5% ● Python (Django) 3% 使用するツール群の変化 (昔)
  4. 4. 4©Gunosy Inc. ● Python 80% ● Excel 17% ● JavaScript 3% 使用するツール群の変化 (今)
  5. 5. 5©Gunosy Inc. ● 記事カテゴリ分類について ○ 教師データの選択、管理が重要 ● 今後取り組みたい課題 ○ より柔軟な分類を可能にするスキーマ設計 ○ 複数のアルゴリズムの選択可能性 サマリ
  6. 6. 6©Gunosy Inc. Gunosyのシステム 記 事 収 集 ユーザ 同一記事判定 ユーザ属性の推定 カテゴリ分類 リアルタイム記事 評価システム
  7. 7. 7©Gunosy Inc. Gunosyのシステム 記 事 収 集 ユーザ 同一記事判定 ユーザ属性の推定 カテゴリ分類 リアルタイム記事 評価システム
  8. 8. 8©Gunosy Inc. ● 記事に対してどのカテゴリにあたるかを判定 ● 教師あり多クラス分類問題 ● 教師データが必要 ● カテゴリ分類には(Bag of Words)を利用しているた め、ある程度のボリュームが必要 カテゴリ分類器課題 記事 カテゴリ 日本代表のhogehogeが2試合ぶりゴール スポーツ fugafuga味のpiyopiyoが新発売!! グルメ
  9. 9. 9©Gunosy Inc. 政治 カテゴリ分類器 記事 カテゴリ分類器 経済 スポーツ グルメ 形態素解析
  10. 10. 10©Gunosy Inc. 教師データ管理: 課題 ● 記事 <-> カテゴリの紐付けがされたデータの取得 ○ 教師データ ○ メディアごとに紐付ける? ■ e.g. hogehogeスポーツ => スポーツ ○ メディアごとにばらつきも ○ 人手の教師データが必要
  11. 11. 11©Gunosy Inc. ● クラウドソーシングで記事にカテゴリを振り分けても らう ● 教師データのひとかたまりに対して2人に評価をし てもらい分類が同じになったものを教師データとし て利用 (※) 教師データ取得 ※『クラウドソーシングと機械学習』 鹿島 久嗣 梶野 洸 人工知能学会誌 27(4), 381-388, 2012-07-01
  12. 12. 12©Gunosy Inc. ● 流行語に対応するため最新であればよいわけでは ない ● 言葉の出現には周期性がある e.g. 冬には”フィギュア”がスポーツ記事に出現 e.g. 冬にはプロ野球には”都市”の名前が出現 ● 一年を通じて学習しないと新しい記事に適応できな いことも => ある程度の期間が必要 教師データ管理
  13. 13. 13©Gunosy Inc. ● バルサ問題、天王山問題 ● カテゴリ分類には(Bag of Words)を利用しているた め、特定のカテゴリで出る単語は誤判定してしまう -> アルゴリズムの改善機会あり ● 現在は記事とカテゴリが1対1対応 カテゴリ分類器: 課題
  14. 14. 14©Gunosy Inc. ● 記事カテゴリ分類について ○ 教師データの選択、管理が重要 ● 今後取り組みたい課題 ○ より柔軟な分類を可能にするスキーマ設計 ○ 複数のアルゴリズムの選択可能性 まとめ
  15. 15. 15©Gunosy Inc. ● Gunosyではデータ分析エンジニアを募集していま す! ● Webエンジニアをやっていて分析をやってみたい方 はぜひ! 募集

×