A User-Oriented Splog Filtering Based on Machine Learning

863 views
816 views

Published on

Authors : Takayuki Yoshinaka, Tomohiro Fukuhara, Hidetaka Masuda, Hiroshi Nakagawa

Published in: Education, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
863
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

A User-Oriented Splog Filtering Based on Machine Learning

  1. 1. A User-Oriented Splog Filtering Based on Machine Learning<br />○Tokyo Denki University : Takayuki Yoshinaka<br />University of Tokyo : Tomohiro Fukuhara<br />Tokyo Denki University : Hidetaka Masuda<br />University of Tokyo : Hiroshi Nakagawa<br />
  2. 2. Agenda<br />Back ground<br />Collect data sets from users<br />Feature<br />Experiment of A User-Oriented Splog Filtering<br />Conclusion<br />
  3. 3. Background<br />スパムブログ(Splog)の大量発生<br />ブログはユーザの興味や嗜好により必要とする情報が異なる<br />“Gray blogs”の出現<br />ユーザごとに判断が異なる<br />一概に判断がつけられない<br />このようなブログの特性とユーザの興味や嗜好に対応できる柔軟なフィルタが必要である<br />“A User-Oriented Splog Filtering”<br />
  4. 4. Splog<br />Affiliate Type<br />ブログ記事中に悪意のあるアフィリエイトリンクを埋め込んだ商用目的のブログ<br />大量生成 Type<br />ブログ記事を一度に大量に生成しばらまく<br />「Copy and Paste Type」 and 「Word Salad」<br />サイト誘導による商用目的<br />Adult Type<br />アダルト情報を掲載したブログ<br />
  5. 5. Affiliate Type<br />5<br />
  6. 6. Copy and Paste Type<br />6<br />
  7. 7. Word Salad Type<br />7<br />
  8. 8. “Gray” Blogs<br />アフィリエイト付きブログ<br />悪意のあるアフィリエイトではない<br />レビューがしっかりしてる<br />ニュースサイトやBBSのコピーブログ<br />最新ニュースや気になるジャンルのニュースをコピーしそのまま転載したブログ<br />あるBBSにおけるスレッドをブログサイトに転載<br />日誌などのプライベートな記事も・・・(?)<br />言わば、コピーによるまとめブログサイト<br />
  9. 9. Blogger’s Review<br />Blog+Affiliate<br />Affiliate link<br />
  10. 10. C&P from BBS<br />Contents of BBS<br />
  11. 11. A User-Oriented Splog Filtering<br />ユーザからの直接の判定情報を収集<br />特徴の選定<br />従来のSplogフィルタリングで使用される特徴(Kolari特徴)<br />我々が提案する特徴(軽量的数値特徴)<br />SVMを用いて学習モデルの作成<br />上記2つの収集したデータを用いて学習を行う<br />
  12. 12. A User-Oriented Splog Filtering System (Over View)<br />Server<br />Client<br />CommonFilter<br />A User-Oriented Splog Filter<br />Offer by Service (Web App etc.)<br />Collect Data<br />Each user’s Filter<br />Web<br />Feedback from Users and Re-learning<br />Part of Filter<br />Learning Module<br />Feature Selection<br />
  13. 13. Agenda<br />Back ground<br />Collect data sets from users<br />Feature<br />Experiment of A User-Oriented Splog Filter<br />Conclusion<br />
  14. 14. Collect data sets from users<br />ユーザからの直接の判定情報を収集することでユーザ適応型Splogフィルタリングのデータとして利用する<br />被験者50人を募り、50件のテストブログ記事に対して判定を行わせる<br /> 以下<br />user’s attributes<br />test blog articles<br /> について説明を行う<br />
  15. 15. User’s attribute<br />Work<br />Age<br />取締役<br />管理職<br />Over 55 age<br />21-24 age<br />35-44 age<br />販売、<br />サービス職<br />コンピュータ関連技術職<br />30-34 age<br />25-29 age<br />事務職、<br />事務専門職<br />
  16. 16. Test blog articles<br />2種類のテスト記事を用意<br />40件の共通記事<br />被験者間で全員が共通に判定を行うテスト記事<br />10件の個別記事<br />被験者ごとに個別に選択が行えるテスト記事<br />14カテゴリから2カテゴリを選択し判定を行う<br />
  17. 17. How to judge<br />2次元4値の判定軸を採用<br />情報価値の尺度<br />[value]<br />5. 有益でなかった<br />4. どちらかと言えば有益でなかった<br />1. スパムでない<br />5. スパム<br />スパム度<br />[spam]<br />4. どちらかと言えばスパム<br />2. どちらかと言えばスパムでない<br />2. どちらかと言えば有益だった<br />1. 有益だった<br />被験者の判定傾向を詳細に分析する<br />17<br />
  18. 18. Result<br />
  19. 19. 40件の共通記事における判定結果<br />judge_count<br />value<br />spam<br />
  20. 20. 10件の共通記事における判定結果<br />judge_count<br />value<br />spam<br />
  21. 21. Back ground<br />Collect data sets from users<br />Feature<br />Experiment of A User-Oriented Splog Filter<br />Conclusion<br />Agenda<br />
  22. 22. Feature<br />2種類のFeatureを使用する<br />従来のSplogフィルタリングで使用される特徴(Kolari特徴)<br />我々が提案する特徴(軽量的数値特徴)<br />狙い<br />Kolari特徴をユーザ適応型に適応した場合にどのような傾向を表すのかを調査する<br />2種類の特徴を比較することで軽量的特徴の有効性を示唆したい<br />
  23. 23. Kolari特徴<br />Bag-of-words<br />品詞に関係なく抽出した形態素群<br />値にはTFIDFを用いる<br />Bag-of-anchors<br />&lt;A&gt;タグに囲まれた部分のテキスト情報<br />&lt;a href=http://affiliate.com &gt;この部分&lt;/a&gt;<br />値にはBinary(1 or 0)を用いる<br />Bag-of-urls<br />全URL情報を「.(ドット)」「/(スラッシュ)」で分割したもの<br />http://www.cdl.im.dendai.ac.jp/yoshinaka⇒<br />「cdl」「im」「dendai」「ac」「jp」「yoshinaka」(「http://」「www.」は除く)<br />
  24. 24. Kolari特徴<br />Bag-of-kolaris<br />「bag-of-words」「bag-of-anchors」「bag-of-urls」を複合した特徴<br />Number of Dimension<br />
  25. 25. 軽量的数値特徴<br />我々が提案する特徴<br />全12次元であり、かつ抽出が容易に行える<br />Kolari特徴同様全ての特徴はブログのHTMLデータから抽出が可能<br />
  26. 26. 軽量的数値特徴<br />
  27. 27. 複合特徴<br />Kolari特徴と軽量的特徴を複合した特徴<br />複合特徴=「bag-of-kolari」+「軽量的数値特徴」<br />次元数<br />16,119 + 12 = 16, 131<br />つまり全部で<br />「bag-of-words」「bag-of-anchors」「bag-of-urls」<br />「bag-of-kolaris」「軽量的数値特徴」「複合特徴」<br />6パターンの特徴を使用<br />
  28. 28. Agenda<br />Back ground<br />Collect data sets from users<br />Feature<br />Experiment of A User-Oriented Splog Filtering<br />Conclusion<br />
  29. 29. Experiment<br />学習ツールLibSVMを用い、5分割交差検定により評価を行う<br />カーネルは「Linear kernel」「Polynomial kernel(3D)」「RBF kernel」「Sigmoid kernel」にて行う<br />オプションは全てデフォルト値を用いる<br />評価の値には学習結果のSplogにおけるF値を用いる<br />6パターン全ての特徴において各被験者ごとに学習を行い評価する<br />
  30. 30. Result<br />
  31. 31. Bag-of-wordsにおける学習結果<br />Splog’s F-measure<br />User’s ID<br />
  32. 32. Bag-of-anchorsにおける学習結果<br />Splog’s F-measure<br />User’s ID<br />
  33. 33. Bag-of-urlsにおける学習結果<br />Splog’s F-measure<br />User’s ID<br />
  34. 34. Bag-of-kolarisにおける学習結果<br />Splog’s F-measure<br />User’s ID<br />
  35. 35. 軽量的数値特徴における学習結果<br />Splog’s F-measure<br />User’s ID<br />
  36. 36. 複合特徴における学習結果<br />Splog’s F-measure<br />User’s ID<br />
  37. 37. 考察<br />若干ではあるが「bag-of-urls」の精度が良かったが、全体として見ればあまり特徴の変化に差は生じなかった<br />カーネルの変化によりSplogF値が大きく変化する被験者が多くみられた<br />「bag-of-kolaris」と「複合特徴」の結果はほぼ同様であった<br />ユーザ適応では軽量的数値特徴でも効果あり<br />ユーザごとには最適なカーネルが存在する<br />複合特徴においては軽量的数値特徴の影響がない<br />
  38. 38. 考察<br />特徴の変化によっても被験者ごとにSplogF値が変化している<br />ユーザごとに最適な特徴が存在する<br />そこで<br />各被験者ごとの「最適なカーネル」における「最適な特徴」を算出する<br />
  39. 39. 最適特徴の算出<br />「最適なカーネル」と「最適な特徴」を各被験者ごとに算出する<br />SplogF値を元に算出する<br />もし、SplogF値が同一の場合下記のランク表を元に特徴抽出コストが掛らない特徴を優先する<br />ランク表<br />
  40. 40. Result<br />
  41. 41. 「最適カーネル」と「最適特徴」の出現回数<br />Pair<br />Feature<br />kernel<br />
  42. 42. 「最適カーネル」と「最適特徴」における各被験者ごとのSplogF値<br />0.316<br />Splog’s F-measure<br />User’s ID<br />
  43. 43. Conclusion<br />ユーザからの直接の判定情報を収集しユーザ適応型Splogフィルタリングの作成した<br />2つの特徴「Kolari特徴」「軽量的数値特徴」を使用しユーザ適応型に適応することで、軽量的特徴の有効性を述べた<br />各ユーザには「最適なカーネル」による「最適な特徴」を提供することが有効であると述べた<br />
  44. 44. Feature Work<br />規模の拡大<br />判定情報データセットの拡大<br />大規模なテストデータを作成してのユーザ適応型フィルタの評価<br />特徴選定<br />軽量的数値特徴の拡充<br />

×