By jot.punkt under CC-BY http://www.flickr.com/photos/janramroth/1287533046/



個人に最適化したフィードリーダの構築
 大阪府立大学工業高等専門学校 5年電子情報コース
 花川研究室 / 清原弘貴
日付:2011/ 10/ 21
目次

 1.はじめに
 2.システムの概要
 3.動作原理
 4.これまでの成果
 5.今後の課題

             Speaker:清原 弘貴
1. 1 はじめに : 背景
フィードリーダとは
ニュースフィードを登録するだけで
自動でWebサイトの新着記事を取得できる

(Google Readerなど)
  


欠点
 取得した記事をすべて表示するので
 登録数が多いと読み切れない
  
                       未読記事の多いニュースリーダ

                               Speaker:清原 弘貴
1. 2 はじめに : 目的

目的:利用者が興味をもつであろう記事のみを表示する
   フィードリーダを構築


       ニュースフィードの登録

                         開発したい
                        フィードリーダ

 利用者   最適化されたニュースフィード


                         Speaker:清原 弘貴
2. システムの概要

 分類のために利用者の興味を調べる必要がある
  -> ソーシャルブックマークをもとに学習する


ソーシャ   好まれる記事         好まれる特徴
ルブック
マーク
                                学習

                 特徴
       好まれる記事
                 抽出   好まれる特徴         好まれる記事

新着
                                分類
記事
       好まれない記事        好まれない特徴

                                              Speaker:清原 弘貴
3.1 動作原理 : 特徴抽出
✤   文中の単語を特徴とする
      (名詞,動詞,形容詞,形容動詞,副詞,連体詞)


✤   Yahoo!形態素解析を用いた
       1つの記事あたり5つの特徴語を抽出した

               特徴抽出したい文

      クライアント     必要な品詞       Yahoo!形態素
                                 解析
                  特徴となる単語

                                    Speaker:清原 弘貴
3.1 動作原理 : 分類
✤   新着記事の分類

 -> 推奨すべき記事 or 推奨すべきでない記事



✤   スパムフィルタの原理を参考に,実際にメーラなどに
    使われているモジュールを使用
✤   フィッシャー法というアルゴリズムで実装されている
✤   http://examples.oreilly.com/9780596529321/



                                                 Speaker:清原 弘貴
4. これまでの成果

実装できたもの
 ✤   動作の主要部分
      新着記事取得 → 記事の分類


 ✤   開発者用の画面

 ✤   ユーザ登録

                       開発者用の画面から見た新着記事


                                  Speaker:清原 弘貴
4. これまでの成果

実装できたもの
 ✤   動作の主要部分
      新着記事取得 → 記事の分類


 ✤   開発者用の画面

 ✤   ユーザ登録


推奨される記事かどうかを
表す値の変動が確認できた
                       Speaker:清原 弘貴
4. これまでの成果(2)



利用者の興味が抽出
できているのが確認できた




                Speaker:清原 弘貴
今後の課題
 ✤   ユーザ向け画面の作成
 ✤   分類の精度向上
     ・特徴語の品詞によって重み付けする
     ・他のアルゴリズムを使う
      (分類機の候補にPA法,ベイジアンフィルタなど)



 ✤   動作原理の理解
      ・フィッシャー法や形態素解析の理解



                                 Speaker:清原 弘貴
おわりに




 ご清聴ありがとうございました



              Speaker:清原 弘貴

卒研中間発表資料:個人に最適化したフィードリーダの構築

  • 1.
    By jot.punkt underCC-BY http://www.flickr.com/photos/janramroth/1287533046/ 個人に最適化したフィードリーダの構築 大阪府立大学工業高等専門学校 5年電子情報コース 花川研究室 / 清原弘貴 日付:2011/ 10/ 21
  • 2.
    目次 1.はじめに 2.システムの概要 3.動作原理 4.これまでの成果 5.今後の課題 Speaker:清原 弘貴
  • 3.
    1. 1 はじめに: 背景 フィードリーダとは ニュースフィードを登録するだけで 自動でWebサイトの新着記事を取得できる (Google Readerなど)    欠点  取得した記事をすべて表示するので 登録数が多いと読み切れない    未読記事の多いニュースリーダ Speaker:清原 弘貴
  • 4.
    1. 2 はじめに: 目的 目的:利用者が興味をもつであろう記事のみを表示する    フィードリーダを構築 ニュースフィードの登録 開発したい フィードリーダ 利用者 最適化されたニュースフィード Speaker:清原 弘貴
  • 5.
    2. システムの概要 分類のために利用者の興味を調べる必要がある  -> ソーシャルブックマークをもとに学習する ソーシャ 好まれる記事 好まれる特徴 ルブック マーク 学習 特徴 好まれる記事 抽出 好まれる特徴 好まれる記事 新着 分類 記事 好まれない記事 好まれない特徴 Speaker:清原 弘貴
  • 6.
    3.1 動作原理 :特徴抽出 ✤ 文中の単語を特徴とする (名詞,動詞,形容詞,形容動詞,副詞,連体詞) ✤ Yahoo!形態素解析を用いた 1つの記事あたり5つの特徴語を抽出した 特徴抽出したい文 クライアント 必要な品詞 Yahoo!形態素 解析 特徴となる単語 Speaker:清原 弘貴
  • 7.
    3.1 動作原理 :分類 ✤ 新着記事の分類  -> 推奨すべき記事 or 推奨すべきでない記事 ✤ スパムフィルタの原理を参考に,実際にメーラなどに 使われているモジュールを使用 ✤ フィッシャー法というアルゴリズムで実装されている ✤ http://examples.oreilly.com/9780596529321/ Speaker:清原 弘貴
  • 8.
    4. これまでの成果 実装できたもの ✤ 動作の主要部分 新着記事取得 → 記事の分類 ✤ 開発者用の画面 ✤ ユーザ登録 開発者用の画面から見た新着記事 Speaker:清原 弘貴
  • 9.
    4. これまでの成果 実装できたもの ✤ 動作の主要部分 新着記事取得 → 記事の分類 ✤ 開発者用の画面 ✤ ユーザ登録 推奨される記事かどうかを 表す値の変動が確認できた Speaker:清原 弘貴
  • 10.
  • 11.
    今後の課題 ✤ ユーザ向け画面の作成 ✤ 分類の精度向上 ・特徴語の品詞によって重み付けする ・他のアルゴリズムを使う  (分類機の候補にPA法,ベイジアンフィルタなど) ✤ 動作原理の理解 ・フィッシャー法や形態素解析の理解 Speaker:清原 弘貴
  • 12.