Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
機械学習を取り入れた RSS 拡張
システム開発部 柴谷大和
RSS[1]
• Web サイトの見出しや要約などのメタデータを
構造化して記述する XML ベースのフォーマッ
トのこと
• 主にサイトの更新情報を公開するのに使われて
いる
• 指定したサイトの RSS 情報を取り込んで更新状
況をまとめた...
RSS リーダー [1]
• Web サイトを巡回して RSS/Atom 形式の更新
情報を受信し、リンク一覧の形で表示するソフ
トウェア
• 指定したサイトの RSS 情報を一定時間ごとに自
動的にダウンロードし、更新があると記事への
リンク...
RSS リーダー [2]
• ヘッドラインをティッカー表示する「ティッ
カー型」
• ポータルサイトのマイページなどに登録する
「ホームページ型」
• システムトレイに常駐して更新時に教えてくれ
る「常駐型」
RSS リーダー [3]
1. 登録サイトが増加するにつれ管理できなくなる
2. ユーザの意思に関係なく更新が常に通知される
3. 常駐型では、常に監視することが出来ない
4. 「緊急性を要するサイト確認」か、「複数サイ
ト管理での一覧確認」か...
RSS リーダー [4]
サイト
RSSRSS リーダーリーダーサイト
サイト
ニュース
スポーツ
政治
RSS
登録
定期確認
メール
通知
一覧表示
サッカー
野球
バレー
更新全てが通知される
機械学習 [1]
「サッカー」の更新のみを知りたい
=> 更新管理サイトにて「サッカー」でフィル
ターをかける
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
更新されたサイト内を「サッカー」で検索して一
致した場合通知...
機械学習 [2]
登録されている単語「サッカー」に対して、更新
されたサイトが、どの程度類似しているかを判断
する。
=> 確率的言語モデル(概念検索)を用いる
※ 「この文章にはこの単語が含まれているはず
だ」という考えを基に、文章同士の類似...
システム [1]
URL
本システム本システムURL
サッカー
ニュース
スポーツ
検索語
DB
登録
定期確認
• URL
• 検索語
• 更新管理情報
• 登録者情報
メール
通知
一覧表示
サッカー
サッカーに関連する内
容のみを通知する
システム [2]
改善内容
・管理しきれない大量通知を減少
  => 検索語の登録(概念検索の導入)
・サーバでの動作により常に監視可能
・ URL 登録によって、 RSS 非対応でも更新検知
出来るように改善
・メール通知か、一覧での表示かを...
Upcoming SlideShare
Loading in …5
×

機械学習を取り入れたRss拡張

173 views

Published on

イーテクノ株式会社 PHPPj

Published in: Technology
  • Be the first to comment

  • Be the first to like this

機械学習を取り入れたRss拡張

  1. 1. 機械学習を取り入れた RSS 拡張 システム開発部 柴谷大和
  2. 2. RSS[1] • Web サイトの見出しや要約などのメタデータを 構造化して記述する XML ベースのフォーマッ トのこと • 主にサイトの更新情報を公開するのに使われて いる • 指定したサイトの RSS 情報を取り込んで更新状 況をまとめた Web ページを生成するアンテナ ( 巡回 ) ソフト  ⇛ RSS リーダー
  3. 3. RSS リーダー [1] • Web サイトを巡回して RSS/Atom 形式の更新 情報を受信し、リンク一覧の形で表示するソフ トウェア • 指定したサイトの RSS 情報を一定時間ごとに自 動的にダウンロードし、更新があると記事への リンクを表示してユーザに知らせるソフトが RSS リーダーである
  4. 4. RSS リーダー [2] • ヘッドラインをティッカー表示する「ティッ カー型」 • ポータルサイトのマイページなどに登録する 「ホームページ型」 • システムトレイに常駐して更新時に教えてくれ る「常駐型」
  5. 5. RSS リーダー [3] 1. 登録サイトが増加するにつれ管理できなくなる 2. ユーザの意思に関係なく更新が常に通知される 3. 常駐型では、常に監視することが出来ない 4. 「緊急性を要するサイト確認」か、「複数サイ ト管理での一覧確認」かの選択を単体システムで 実現できない 5.RSS がないサイトの確認が出来ない
  6. 6. RSS リーダー [4] サイト RSSRSS リーダーリーダーサイト サイト ニュース スポーツ 政治 RSS 登録 定期確認 メール 通知 一覧表示 サッカー 野球 バレー 更新全てが通知される
  7. 7. 機械学習 [1] 「サッカー」の更新のみを知りたい => 更新管理サイトにて「サッカー」でフィル ターをかける ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ 更新されたサイト内を「サッカー」で検索して一 致した場合通知する? => 「サッカー」という単語が含まれていないと 通知されなくなってしまう
  8. 8. 機械学習 [2] 登録されている単語「サッカー」に対して、更新 されたサイトが、どの程度類似しているかを判断 する。 => 確率的言語モデル(概念検索)を用いる ※ 「この文章にはこの単語が含まれているはず だ」という考えを基に、文章同士の類似度を判断 する。
  9. 9. システム [1] URL 本システム本システムURL サッカー ニュース スポーツ 検索語 DB 登録 定期確認 • URL • 検索語 • 更新管理情報 • 登録者情報 メール 通知 一覧表示 サッカー サッカーに関連する内 容のみを通知する
  10. 10. システム [2] 改善内容 ・管理しきれない大量通知を減少   => 検索語の登録(概念検索の導入) ・サーバでの動作により常に監視可能 ・ URL 登録によって、 RSS 非対応でも更新検知 出来るように改善 ・メール通知か、一覧での表示かを選べる

×