SlideShare a Scribd company logo
1 of 44
A User-Oriented Splog Filtering Based on Machine Learning ○Tokyo Denki University : Takayuki Yoshinaka University of Tokyo : Tomohiro Fukuhara Tokyo Denki University : Hidetaka Masuda University of Tokyo : Hiroshi Nakagawa
Agenda Back ground Collect data sets from users Feature Experiment of A User-Oriented Splog Filtering Conclusion
Background スパムブログ(Splog)の大量発生 ブログはユーザの興味や嗜好により必要とする情報が異なる “Gray blogs”の出現 ユーザごとに判断が異なる 一概に判断がつけられない このようなブログの特性とユーザの興味や嗜好に対応できる柔軟なフィルタが必要である “A User-Oriented Splog Filtering”
Splog Affiliate Type ブログ記事中に悪意のあるアフィリエイトリンクを埋め込んだ商用目的のブログ 大量生成 Type ブログ記事を一度に大量に生成しばらまく 「Copy and Paste Type」 and 「Word Salad」 サイト誘導による商用目的 Adult Type アダルト情報を掲載したブログ
Affiliate Type 5
Copy and Paste Type 6
Word Salad Type 7
“Gray” Blogs アフィリエイト付きブログ 悪意のあるアフィリエイトではない レビューがしっかりしてる ニュースサイトやBBSのコピーブログ 最新ニュースや気になるジャンルのニュースをコピーしそのまま転載したブログ あるBBSにおけるスレッドをブログサイトに転載 日誌などのプライベートな記事も・・・(?) 言わば、コピーによるまとめブログサイト
Blogger’s Review Blog+Affiliate Affiliate link
C&P from BBS Contents of BBS
A User-Oriented Splog Filtering ユーザからの直接の判定情報を収集 特徴の選定 従来のSplogフィルタリングで使用される特徴(Kolari特徴) 我々が提案する特徴(軽量的数値特徴) SVMを用いて学習モデルの作成 上記2つの収集したデータを用いて学習を行う
A User-Oriented Splog Filtering System (Over View) Server Client CommonFilter A User-Oriented Splog Filter Offer by Service (Web App etc.) Collect Data Each user’s Filter Web Feedback from Users and Re-learning Part of Filter Learning Module Feature Selection
Agenda Back ground Collect data sets from users Feature Experiment of A User-Oriented Splog Filter Conclusion
Collect data sets from users ユーザからの直接の判定情報を収集することでユーザ適応型Splogフィルタリングのデータとして利用する 被験者50人を募り、50件のテストブログ記事に対して判定を行わせる  以下 user’s attributes test blog articles  について説明を行う
User’s attribute Work Age 取締役 管理職 Over 55 age 21-24 age 35-44 age 販売、 サービス職 コンピュータ関連技術職 30-34 age 25-29 age 事務職、 事務専門職
Test blog articles 2種類のテスト記事を用意 40件の共通記事 被験者間で全員が共通に判定を行うテスト記事 10件の個別記事 被験者ごとに個別に選択が行えるテスト記事 14カテゴリから2カテゴリを選択し判定を行う
How to judge 2次元4値の判定軸を採用 情報価値の尺度 [value] 5. 有益でなかった 4. どちらかと言えば有益でなかった 1. スパムでない 5. スパム スパム度 [spam] 4. どちらかと言えばスパム 2. どちらかと言えばスパムでない 2. どちらかと言えば有益だった 1. 有益だった 被験者の判定傾向を詳細に分析する 17
Result
40件の共通記事における判定結果 judge_count value spam
10件の共通記事における判定結果 judge_count value spam
Back ground Collect data sets from users Feature Experiment of A User-Oriented Splog Filter Conclusion Agenda
Feature 2種類のFeatureを使用する 従来のSplogフィルタリングで使用される特徴(Kolari特徴) 我々が提案する特徴(軽量的数値特徴) 狙い Kolari特徴をユーザ適応型に適応した場合にどのような傾向を表すのかを調査する 2種類の特徴を比較することで軽量的特徴の有効性を示唆したい
Kolari特徴 Bag-of-words 品詞に関係なく抽出した形態素群 値にはTFIDFを用いる Bag-of-anchors <A>タグに囲まれた部分のテキスト情報 <a href=http://affiliate.com >この部分</a> 値にはBinary(1 or 0)を用いる Bag-of-urls 全URL情報を「.(ドット)」「/(スラッシュ)」で分割したもの http://www.cdl.im.dendai.ac.jp/yoshinaka⇒ 「cdl」「im」「dendai」「ac」「jp」「yoshinaka」(「http://」「www.」は除く)
Kolari特徴 Bag-of-kolaris 「bag-of-words」「bag-of-anchors」「bag-of-urls」を複合した特徴 Number of Dimension
軽量的数値特徴 我々が提案する特徴 全12次元であり、かつ抽出が容易に行える Kolari特徴同様全ての特徴はブログのHTMLデータから抽出が可能
軽量的数値特徴
複合特徴 Kolari特徴と軽量的特徴を複合した特徴 複合特徴=「bag-of-kolari」+「軽量的数値特徴」 次元数 16,119 + 12 = 16, 131 つまり全部で 「bag-of-words」「bag-of-anchors」「bag-of-urls」 「bag-of-kolaris」「軽量的数値特徴」「複合特徴」 6パターンの特徴を使用
Agenda Back ground Collect data sets from users Feature Experiment of A User-Oriented Splog Filtering Conclusion
Experiment 学習ツールLibSVMを用い、5分割交差検定により評価を行う カーネルは「Linear kernel」「Polynomial kernel(3D)」「RBF kernel」「Sigmoid kernel」にて行う オプションは全てデフォルト値を用いる 評価の値には学習結果のSplogにおけるF値を用いる 6パターン全ての特徴において各被験者ごとに学習を行い評価する
Result
Bag-of-wordsにおける学習結果 Splog’s F-measure User’s ID
Bag-of-anchorsにおける学習結果 Splog’s F-measure User’s ID
Bag-of-urlsにおける学習結果 Splog’s F-measure User’s ID
Bag-of-kolarisにおける学習結果 Splog’s F-measure User’s ID
軽量的数値特徴における学習結果 Splog’s F-measure User’s ID
複合特徴における学習結果 Splog’s F-measure User’s ID
考察 若干ではあるが「bag-of-urls」の精度が良かったが、全体として見ればあまり特徴の変化に差は生じなかった カーネルの変化によりSplogF値が大きく変化する被験者が多くみられた 「bag-of-kolaris」と「複合特徴」の結果はほぼ同様であった ユーザ適応では軽量的数値特徴でも効果あり ユーザごとには最適なカーネルが存在する 複合特徴においては軽量的数値特徴の影響がない
考察 特徴の変化によっても被験者ごとにSplogF値が変化している ユーザごとに最適な特徴が存在する そこで 各被験者ごとの「最適なカーネル」における「最適な特徴」を算出する
最適特徴の算出 「最適なカーネル」と「最適な特徴」を各被験者ごとに算出する SplogF値を元に算出する もし、SplogF値が同一の場合下記のランク表を元に特徴抽出コストが掛らない特徴を優先する ランク表
Result
「最適カーネル」と「最適特徴」の出現回数 Pair Feature kernel
「最適カーネル」と「最適特徴」における各被験者ごとのSplogF値 0.316 Splog’s F-measure User’s ID
Conclusion ユーザからの直接の判定情報を収集しユーザ適応型Splogフィルタリングの作成した 2つの特徴「Kolari特徴」「軽量的数値特徴」を使用しユーザ適応型に適応することで、軽量的特徴の有効性を述べた 各ユーザには「最適なカーネル」による「最適な特徴」を提供することが有効であると述べた
Feature Work 規模の拡大 判定情報データセットの拡大 大規模なテストデータを作成してのユーザ適応型フィルタの評価 特徴選定 軽量的数値特徴の拡充

More Related Content

Similar to A User-Oriented Splog Filtering Based on Machine Learning

機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -
機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -
機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -Masakazu Ishihata
 
Recommend system
Recommend systemRecommend system
Recommend systemilove2dgirl
 
協調フィルタリングをやってみる
協調フィルタリングをやってみる協調フィルタリングをやってみる
協調フィルタリングをやってみるKoya Fukuda
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with MahoutKatsuhiro Takata
 
ムダ知識との出会いを求めて - ふわっと関連検索
ムダ知識との出会いを求めて - ふわっと関連検索ムダ知識との出会いを求めて - ふわっと関連検索
ムダ知識との出会いを求めて - ふわっと関連検索Masao Takaku
 
アカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用についてアカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用についてTsubasa Yumura
 

Similar to A User-Oriented Splog Filtering Based on Machine Learning (6)

機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -
機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -
機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -
 
Recommend system
Recommend systemRecommend system
Recommend system
 
協調フィルタリングをやってみる
協調フィルタリングをやってみる協調フィルタリングをやってみる
協調フィルタリングをやってみる
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with Mahout
 
ムダ知識との出会いを求めて - ふわっと関連検索
ムダ知識との出会いを求めて - ふわっと関連検索ムダ知識との出会いを求めて - ふわっと関連検索
ムダ知識との出会いを求めて - ふわっと関連検索
 
アカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用についてアカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用について
 

Recently uploaded

リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドKen Fukui
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfyukisuga3
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドKen Fukui
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドKen Fukui
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドKen Fukui
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドKen Fukui
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 

Recently uploaded (10)

リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 

A User-Oriented Splog Filtering Based on Machine Learning