A User-Oriented Splog Filtering Based on Machine Learning
Upcoming SlideShare
Loading in...5
×
 

A User-Oriented Splog Filtering Based on Machine Learning

on

  • 1,030 views

Authors : Takayuki Yoshinaka, Tomohiro Fukuhara, Hidetaka Masuda, Hiroshi Nakagawa

Authors : Takayuki Yoshinaka, Tomohiro Fukuhara, Hidetaka Masuda, Hiroshi Nakagawa

Statistics

Views

Total Views
1,030
Views on SlideShare
1,030
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    A User-Oriented Splog Filtering Based on Machine Learning A User-Oriented Splog Filtering Based on Machine Learning Presentation Transcript

    • A User-Oriented Splog Filtering Based on Machine Learning
      ○Tokyo Denki University : Takayuki Yoshinaka
      University of Tokyo : Tomohiro Fukuhara
      Tokyo Denki University : Hidetaka Masuda
      University of Tokyo : Hiroshi Nakagawa
    • Agenda
      Back ground
      Collect data sets from users
      Feature
      Experiment of A User-Oriented Splog Filtering
      Conclusion
    • Background
      スパムブログ(Splog)の大量発生
      ブログはユーザの興味や嗜好により必要とする情報が異なる
      “Gray blogs”の出現
      ユーザごとに判断が異なる
      一概に判断がつけられない
      このようなブログの特性とユーザの興味や嗜好に対応できる柔軟なフィルタが必要である
      “A User-Oriented Splog Filtering”
    • Splog
      Affiliate Type
      ブログ記事中に悪意のあるアフィリエイトリンクを埋め込んだ商用目的のブログ
      大量生成 Type
      ブログ記事を一度に大量に生成しばらまく
      「Copy and Paste Type」 and 「Word Salad」
      サイト誘導による商用目的
      Adult Type
      アダルト情報を掲載したブログ
    • Affiliate Type
      5
    • Copy and Paste Type
      6
    • Word Salad Type
      7
    • “Gray” Blogs
      アフィリエイト付きブログ
      悪意のあるアフィリエイトではない
      レビューがしっかりしてる
      ニュースサイトやBBSのコピーブログ
      最新ニュースや気になるジャンルのニュースをコピーしそのまま転載したブログ
      あるBBSにおけるスレッドをブログサイトに転載
      日誌などのプライベートな記事も・・・(?)
      言わば、コピーによるまとめブログサイト
    • Blogger’s Review
      Blog+Affiliate
      Affiliate link
    • C&P from BBS
      Contents of BBS
    • A User-Oriented Splog Filtering
      ユーザからの直接の判定情報を収集
      特徴の選定
      従来のSplogフィルタリングで使用される特徴(Kolari特徴)
      我々が提案する特徴(軽量的数値特徴)
      SVMを用いて学習モデルの作成
      上記2つの収集したデータを用いて学習を行う
    • A User-Oriented Splog Filtering System (Over View)
      Server
      Client
      CommonFilter
      A User-Oriented Splog Filter
      Offer by Service (Web App etc.)
      Collect Data
      Each user’s Filter
      Web
      Feedback from Users and Re-learning
      Part of Filter
      Learning Module
      Feature Selection
    • Agenda
      Back ground
      Collect data sets from users
      Feature
      Experiment of A User-Oriented Splog Filter
      Conclusion
    • Collect data sets from users
      ユーザからの直接の判定情報を収集することでユーザ適応型Splogフィルタリングのデータとして利用する
      被験者50人を募り、50件のテストブログ記事に対して判定を行わせる
       以下
      user’s attributes
      test blog articles
       について説明を行う
    • User’s attribute
      Work
      Age
      取締役
      管理職
      Over 55 age
      21-24 age
      35-44 age
      販売、
      サービス職
      コンピュータ関連技術職
      30-34 age
      25-29 age
      事務職、
      事務専門職
    • Test blog articles
      2種類のテスト記事を用意
      40件の共通記事
      被験者間で全員が共通に判定を行うテスト記事
      10件の個別記事
      被験者ごとに個別に選択が行えるテスト記事
      14カテゴリから2カテゴリを選択し判定を行う
    • How to judge
      2次元4値の判定軸を採用
      情報価値の尺度
      [value]
      5. 有益でなかった
      4. どちらかと言えば有益でなかった
      1. スパムでない
      5. スパム
      スパム度
      [spam]
      4. どちらかと言えばスパム
      2. どちらかと言えばスパムでない
      2. どちらかと言えば有益だった
      1. 有益だった
      被験者の判定傾向を詳細に分析する
      17
    • Result
    • 40件の共通記事における判定結果
      judge_count
      value
      spam
    • 10件の共通記事における判定結果
      judge_count
      value
      spam
    • Back ground
      Collect data sets from users
      Feature
      Experiment of A User-Oriented Splog Filter
      Conclusion
      Agenda
    • Feature
      2種類のFeatureを使用する
      従来のSplogフィルタリングで使用される特徴(Kolari特徴)
      我々が提案する特徴(軽量的数値特徴)
      狙い
      Kolari特徴をユーザ適応型に適応した場合にどのような傾向を表すのかを調査する
      2種類の特徴を比較することで軽量的特徴の有効性を示唆したい
    • Kolari特徴
      Bag-of-words
      品詞に関係なく抽出した形態素群
      値にはTFIDFを用いる
      Bag-of-anchors
      <A>タグに囲まれた部分のテキスト情報
      <a href=http://affiliate.com >この部分</a>
      値にはBinary(1 or 0)を用いる
      Bag-of-urls
      全URL情報を「.(ドット)」「/(スラッシュ)」で分割したもの
      http://www.cdl.im.dendai.ac.jp/yoshinaka⇒
      「cdl」「im」「dendai」「ac」「jp」「yoshinaka」(「http://」「www.」は除く)
    • Kolari特徴
      Bag-of-kolaris
      「bag-of-words」「bag-of-anchors」「bag-of-urls」を複合した特徴
      Number of Dimension
    • 軽量的数値特徴
      我々が提案する特徴
      全12次元であり、かつ抽出が容易に行える
      Kolari特徴同様全ての特徴はブログのHTMLデータから抽出が可能
    • 軽量的数値特徴
    • 複合特徴
      Kolari特徴と軽量的特徴を複合した特徴
      複合特徴=「bag-of-kolari」+「軽量的数値特徴」
      次元数
      16,119 + 12 = 16, 131
      つまり全部で
      「bag-of-words」「bag-of-anchors」「bag-of-urls」
      「bag-of-kolaris」「軽量的数値特徴」「複合特徴」
      6パターンの特徴を使用
    • Agenda
      Back ground
      Collect data sets from users
      Feature
      Experiment of A User-Oriented Splog Filtering
      Conclusion
    • Experiment
      学習ツールLibSVMを用い、5分割交差検定により評価を行う
      カーネルは「Linear kernel」「Polynomial kernel(3D)」「RBF kernel」「Sigmoid kernel」にて行う
      オプションは全てデフォルト値を用いる
      評価の値には学習結果のSplogにおけるF値を用いる
      6パターン全ての特徴において各被験者ごとに学習を行い評価する
    • Result
    • Bag-of-wordsにおける学習結果
      Splog’s F-measure
      User’s ID
    • Bag-of-anchorsにおける学習結果
      Splog’s F-measure
      User’s ID
    • Bag-of-urlsにおける学習結果
      Splog’s F-measure
      User’s ID
    • Bag-of-kolarisにおける学習結果
      Splog’s F-measure
      User’s ID
    • 軽量的数値特徴における学習結果
      Splog’s F-measure
      User’s ID
    • 複合特徴における学習結果
      Splog’s F-measure
      User’s ID
    • 考察
      若干ではあるが「bag-of-urls」の精度が良かったが、全体として見ればあまり特徴の変化に差は生じなかった
      カーネルの変化によりSplogF値が大きく変化する被験者が多くみられた
      「bag-of-kolaris」と「複合特徴」の結果はほぼ同様であった
      ユーザ適応では軽量的数値特徴でも効果あり
      ユーザごとには最適なカーネルが存在する
      複合特徴においては軽量的数値特徴の影響がない
    • 考察
      特徴の変化によっても被験者ごとにSplogF値が変化している
      ユーザごとに最適な特徴が存在する
      そこで
      各被験者ごとの「最適なカーネル」における「最適な特徴」を算出する
    • 最適特徴の算出
      「最適なカーネル」と「最適な特徴」を各被験者ごとに算出する
      SplogF値を元に算出する
      もし、SplogF値が同一の場合下記のランク表を元に特徴抽出コストが掛らない特徴を優先する
      ランク表
    • Result
    • 「最適カーネル」と「最適特徴」の出現回数
      Pair
      Feature
      kernel
    • 「最適カーネル」と「最適特徴」における各被験者ごとのSplogF値
      0.316
      Splog’s F-measure
      User’s ID
    • Conclusion
      ユーザからの直接の判定情報を収集しユーザ適応型Splogフィルタリングの作成した
      2つの特徴「Kolari特徴」「軽量的数値特徴」を使用しユーザ適応型に適応することで、軽量的特徴の有効性を述べた
      各ユーザには「最適なカーネル」による「最適な特徴」を提供することが有効であると述べた
    • Feature Work
      規模の拡大
      判定情報データセットの拡大
      大規模なテストデータを作成してのユーザ適応型フィルタの評価
      特徴選定
      軽量的数値特徴の拡充