SlideShare a Scribd company logo
Spam Detection /
Question Answering & Topic Modeling
株式会社サイバーエージェント
秋葉原ラボ
角田 孝昭
1
WWW2017 読み会
イントロダクション
自己紹介: 角田 孝昭
● 業務:
– アメブロ等を対象としたスパムからの
防御、既侵入スパムの索敵・殲滅
– テキスト ↔ ハッシュタグの推薦
– そのほか、自然言語処理・データ分析周り色々
● 経歴:
– 筑波大学大学院 CS 専攻、博士(工学)
評判分析・時系列予測周りの研究をしていました
– 現職 → 上記のような業務へ
● 鳥が好きです(※飼ってません)
2
噛まれている方が
登壇者
イントロダクション
どんなセッション?
1. [6C] Spam Detection (4件)
– 様々なスパム = 迷惑行為(e.g. 所謂ステマ・
偽レビュー、アクセス水増し)の検出を対象
2. [6H] Question Answering & Topic Modeling (4件)
– 質問応答(3件)
自然言語質問を解析して応答するシステムの開発/
質問応答ウェブサイト(CQA)での情報抽出・整理
– トピックモデル(1件)
文書群の裏にあるトピック(分野とか)を考慮した
モデルにより文書群を整理
3
イントロダクション
本発表の進行次第
1. イントロダクション
2. Spam Detection
– セッション概略
– 各発表の1行要約
– ピックアップ解説:
“Bimodal Distribution and Co-Bursting in Review Spam Detection”
3. Question Answering & Topic Modeling
– セッション概略
– 各発表の1行要約
– ピックアップ解説:
“Detecting Duplicate Posts in Programming QA Communities via Latent
Semantics and Association Rules”
4
2. Spam Detection
5
Spam Detection
どんなセッション?
● 目的: スパムの特徴分析、及び分析に基づく検出
– 一昔前はメールスパム検出が主であったが、現在は様々
なメディア・形態のスパムが跋扈
● 手法: (自然言語処理 +) スパマー行動モデリング
● 傾向
– 新たなスパム形態への対処と言う点で問題設定が新鮮
■ 新たな巨悪(クラウドソーシングやアクセス水増しを行う有料サー
ビス)へいかに対応するか?
– 検出のためのモデル化・分析(feature engineering)が中
心
6
Spam Detection
セッション発表1行要約
● Bimodal Distribution and Co-Bursting in Review Spam Detection
– レビュースパム(ステマ)を対象。レビュー間隔の特徴的分布、
スパマー同士で同じ商品群にレビューしている等の現象を活用
● Detecting Collusive Spamming Activities in Community Question Answering
– QA サイトにおける、クラウドソーシングで結託するスパマーらによるステマを
対象。不正 QA 群の特徴分析に基き高性能化・早期発見を実現
● FLOCK: Combating Astroturfing on Livestreaming Platforms
– ストリーミングサービスにおける不正な視聴数等の水増しを対象。
視聴数を精緻にモデル化し、モデルとの乖離から不正番組/ユーザを推定
● Can You Spot the Fakes? On the Limitations of User Feedback in Online
Social Networks
– LinkedIn の不正アカウントを対象。ユーザからのスパム reporting ability をモ
デル化、実データでの検証を通じユーザからの発見の難しさを議論
7
もう少し詳しく
取り上げます!
Bimodal Distribution and Co-Bursting in Review Spam Detection
目的: レビュースパムの検出
● ステマ問題は万国共通
– レビュー情報はユーザ購買判断の強力な材料
– レビュースパム = 偽レビューを特定の製品・サービスに書
き込んで評価をこっそり上げる/下げる行為が横行
●
– 偽レビューに現れる2つの特徴的現象を発見
i. レビュー時間間隔を取ると二峰性(bimodal)になり、
スパム・否スパムで形状が大きく異なる
ii. 同じ商品(群)へ短時間で同時にレビュー(co-bursting)
– 上記特徴を踏まえて HMM を拡張したモデルを提案
8
アイディア・貢献
Bimodal Distribution and Co-Bursting in Review Spam Detection
現象1: レビュー間隔分布の異なり
9
レビュー数
同一ユーザの前回のレビューからの間隔(※対数)
前投稿から 〜数分
まとめてレビュー
書くモード
前投稿から 数時間〜
久々にレビュー
書くモード
すごくあやしい
あや
しい
● 二峰性であることに
基づき、ユーザ状態
を active/inactive の
2種類でモデル化
spam/ham
active state
間隔
Labeled HMM を提案
(階層ベイズ的なイメージか)
● ユーザ状態を
co-bursting mode
(0/1) の2種類でモデ
ル化
● Labeled HMM に
統合
Bimodal Distribution and Co-Bursting in Review Spam Detection
現象2: 短時間窓内の同時レビュー
10
co-bursting
突如ある日に
同時に書きまくる
spam/ham
active state
間隔
co-burst mode
co-burst signal
Coupled HMM を提案
(signal は時間窓内の同時レ
ビュー数等の6つのmetrics)
Bimodal Distribution and Co-Bursting in Review Spam Detection
性能評価@中国のレストランレビューサイト
11
★ Recall: スパム網羅率, Precision: スパム指摘の精度, F1: R, P の調和平均
いずれも高いほどうれしい
従来 提案
co-bursting
のみ
両方
bimodal のみ
Bimodal Distribution and Co-Bursting in Review Spam Detection
考察・まとめ・雑感
● 考察
– 特に Recall が大きく上昇:
テキスト・単体ユーザの行動に基づく検出限界を突破
● まとめ
– レビュー間隔の分布 (bimodal dist.) と co-bursting の
特徴を発見 + 活用したモデルを提案 → 性能向上
● 雑感
– 同種のスパムがどの程度あったのだろうか
(特定タイプ/集団のスパムに特化していないか?)
12
3. Question Answering
& Topic Modeling
13
Question Answering & Topic Modeling
どんなセッション?
● 目的:
– QA: 自然言語応答システムの開発/質問応答ウェブサイ
ト等での情報抽出・整理
– TM: 文書群の潜在的トピックをモデル化して整理
● 手法: 自然言語処理 + α
● 傾向: 当セッションは「その他」なのでは…?
– QA: タスクが三者三様
– TM: 発表は今回一件のみ、あまり WWW 的ではないのか
も…?(とは言え、2014年には個別セッションがあった)
14
Question Answering & Topic Modeling
セッション発表1行要約(1/2)
● Automated Template Generation for Question Answering over Knowledge
Graphs
– KG を利用した質問回答システムのため、自然言語文 → KGクエリ変換テン
プレートを distant supervision で自動生成 & 回答性能向上を示す
● A Semantic Graph-Based Approach for Mining Common Topics from Multiple
Asynchronous Text Streams
– 複数ソース (stream) からの入力文書群を対象。ソースの差異による、
「文面の違い」と「時間の違い」をそれぞれ解決するモデルと、
それらを統合したトピックモデルを提案
15
Question Answering & Topic Modeling
セッション発表1行要約(2/2)
● Neural Network-based Question Answering over Knowledge Graphs on Word
and Character Level
– NN による end-to-end な質問応答手法。単語情報に加え、
out-of-vocabuluary 対策として文字レベルの情報も活用
● Detecting Duplicate Posts in Programming QA Communities via Latent
Semantics and Association Rules
– StackOverflow の重複質問の検出を目的。素性に doc2vec, LDA に加え、
SO 特有の連想語リスト (e.g. append - concatenate) を生成し活用
16
もう少し詳しく
取り上げます!
Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules
目的: SO 重複質問の検出
● 既出の質問はよろしくない → 検出したい
●
– doc2vec, LDA + SO 連想語 (association pair) を素性に
■ 既に重複と分かっている投稿群から association pair を獲得
– extensive evaluation:
様々な素性や分類器による性能差を調査
17
アイディア・貢献
既に回答済み
マーク
Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules
素性1, 2: doc2vec, LDA
● 問題設定:
入力: 2つの質問、出力: 重複質問か? { 0, 1 }
– 全組み合わせにやるのは厳しいので共通タグがある
ペアのみを取り上げる(言語名とか; SO は投稿時タグ必須)
● 素性 1, 2: 文書ベクトル表現の cosine 類似度
– doc2vec:
word2vec の文書拡張版
– LDA:
つよいトピックモデル
([19] の単文書強化版を利用)
18
タイトルのみ、本文のみ、両方でベクトル化した
3種類の類似度を素性とする
Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules
素性3: 連想対 for PCQA
● PCQA は特有の関連語が
多いドメイン →
1. 重複と既に分かっている
質問タイトル群から連想対を獲得
– 機械翻訳の word alignment の手法を援用 [22]
2. 各連想対の重みを devset で予め学習
– 重複検出に有用か (predictive power) は連想対で異なる
– 重みは簡単な perceptron で学習
19
Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules
性能評価 - 素性
● TF-IDF (VSM) はさっぱり
– 単純に頻度を使うだけでは重複検出は難しいよう
● 提案素性はどれも効いているが連想対素性が最も良い
– 他の「文書全体のベクトル」より連想対の共起が直接効く?
20
TF-IDF
提案
ROC curve: 左上ほど良い
doc2vec
LDA
assoc. pair
★ Recall: 重複検出網羅率, F1: Recall, Precision (検出精度) の調和平均
Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules
性能評価 - 分類器
● K-NN はさっぱり
– 全素性を同一の重要度としている点でイマイチか
● Random Forest が概ね最も良い
– 様々なタスクに有用だが、本タスクでも有用性が示された
21
ROC curve: 左上ほど良い
★ Recall: 重複検出網羅率, F1: Recall, Precision (検出精度) の調和平均
Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules
まとめ・雑感
● まとめ
– 重複質問検出のための3素性を提案、中でも PCQA ドメイ
ン用に提案した association pair がなかなか有効
– extensive evaluation により有効性を確認
● 雑感
– 完全な新手法の提案ではなく、既存手法の組み合わせで
バリューを出しているところが参考になる
■ ドメイン特化の改良 + 詳細な実験による比較がポイントか
– タイトル/本文/組み合わせのどれが効いたか気になる
22

More Related Content

More from cyberagent

WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics    武内慎WebにおけるHuman Dynamics    武内慎
WebにおけるHuman Dynamics 武内慎
cyberagent
 
Webと経済学 數見拓朗
Webと経済学    數見拓朗Webと経済学    數見拓朗
Webと経済学 數見拓朗
cyberagent
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
 
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
cyberagent
 
AbemaTVにおける推薦システム
AbemaTVにおける推薦システムAbemaTVにおける推薦システム
AbemaTVにおける推薦システム
cyberagent
 
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートAbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
cyberagent
 
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
cyberagent
 
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
cyberagent
 
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
cyberagent
 
WWW2018 論文読み会  Webと経済学
 WWW2018 論文読み会  Webと経済学 WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会  Webと経済学
cyberagent
 
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman DynamicsWWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
cyberagent
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
cyberagent
 
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
cyberagent
 
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
cyberagent
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
 
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
cyberagent
 
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習"  の取り組み"マルチメディア機械学習"  の取り組み
"マルチメディア機械学習" の取り組み
cyberagent
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
 
サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例
cyberagent
 

More from cyberagent (20)

WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics    武内慎WebにおけるHuman Dynamics    武内慎
WebにおけるHuman Dynamics 武内慎
 
Webと経済学 數見拓朗
Webと経済学    數見拓朗Webと経済学    數見拓朗
Webと経済学 數見拓朗
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
 
AbemaTVにおける推薦システム
AbemaTVにおける推薦システムAbemaTVにおける推薦システム
AbemaTVにおける推薦システム
 
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートAbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
 
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
 
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
 
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
 
WWW2018 論文読み会  Webと経済学
 WWW2018 論文読み会  Webと経済学 WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会  Webと経済学
 
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman DynamicsWWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
 
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
 
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習"  の取り組み"マルチメディア機械学習"  の取り組み
"マルチメディア機械学習" の取り組み
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 
サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例
 

Recently uploaded

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 

Recently uploaded (15)

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 

WWW2017論文読み会 Spam Detection と Question Answering & Topic Modeling

  • 1. Spam Detection / Question Answering & Topic Modeling 株式会社サイバーエージェント 秋葉原ラボ 角田 孝昭 1 WWW2017 読み会
  • 2. イントロダクション 自己紹介: 角田 孝昭 ● 業務: – アメブロ等を対象としたスパムからの 防御、既侵入スパムの索敵・殲滅 – テキスト ↔ ハッシュタグの推薦 – そのほか、自然言語処理・データ分析周り色々 ● 経歴: – 筑波大学大学院 CS 専攻、博士(工学) 評判分析・時系列予測周りの研究をしていました – 現職 → 上記のような業務へ ● 鳥が好きです(※飼ってません) 2 噛まれている方が 登壇者
  • 3. イントロダクション どんなセッション? 1. [6C] Spam Detection (4件) – 様々なスパム = 迷惑行為(e.g. 所謂ステマ・ 偽レビュー、アクセス水増し)の検出を対象 2. [6H] Question Answering & Topic Modeling (4件) – 質問応答(3件) 自然言語質問を解析して応答するシステムの開発/ 質問応答ウェブサイト(CQA)での情報抽出・整理 – トピックモデル(1件) 文書群の裏にあるトピック(分野とか)を考慮した モデルにより文書群を整理 3
  • 4. イントロダクション 本発表の進行次第 1. イントロダクション 2. Spam Detection – セッション概略 – 各発表の1行要約 – ピックアップ解説: “Bimodal Distribution and Co-Bursting in Review Spam Detection” 3. Question Answering & Topic Modeling – セッション概略 – 各発表の1行要約 – ピックアップ解説: “Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules” 4
  • 6. Spam Detection どんなセッション? ● 目的: スパムの特徴分析、及び分析に基づく検出 – 一昔前はメールスパム検出が主であったが、現在は様々 なメディア・形態のスパムが跋扈 ● 手法: (自然言語処理 +) スパマー行動モデリング ● 傾向 – 新たなスパム形態への対処と言う点で問題設定が新鮮 ■ 新たな巨悪(クラウドソーシングやアクセス水増しを行う有料サー ビス)へいかに対応するか? – 検出のためのモデル化・分析(feature engineering)が中 心 6
  • 7. Spam Detection セッション発表1行要約 ● Bimodal Distribution and Co-Bursting in Review Spam Detection – レビュースパム(ステマ)を対象。レビュー間隔の特徴的分布、 スパマー同士で同じ商品群にレビューしている等の現象を活用 ● Detecting Collusive Spamming Activities in Community Question Answering – QA サイトにおける、クラウドソーシングで結託するスパマーらによるステマを 対象。不正 QA 群の特徴分析に基き高性能化・早期発見を実現 ● FLOCK: Combating Astroturfing on Livestreaming Platforms – ストリーミングサービスにおける不正な視聴数等の水増しを対象。 視聴数を精緻にモデル化し、モデルとの乖離から不正番組/ユーザを推定 ● Can You Spot the Fakes? On the Limitations of User Feedback in Online Social Networks – LinkedIn の不正アカウントを対象。ユーザからのスパム reporting ability をモ デル化、実データでの検証を通じユーザからの発見の難しさを議論 7 もう少し詳しく 取り上げます!
  • 8. Bimodal Distribution and Co-Bursting in Review Spam Detection 目的: レビュースパムの検出 ● ステマ問題は万国共通 – レビュー情報はユーザ購買判断の強力な材料 – レビュースパム = 偽レビューを特定の製品・サービスに書 き込んで評価をこっそり上げる/下げる行為が横行 ● – 偽レビューに現れる2つの特徴的現象を発見 i. レビュー時間間隔を取ると二峰性(bimodal)になり、 スパム・否スパムで形状が大きく異なる ii. 同じ商品(群)へ短時間で同時にレビュー(co-bursting) – 上記特徴を踏まえて HMM を拡張したモデルを提案 8 アイディア・貢献
  • 9. Bimodal Distribution and Co-Bursting in Review Spam Detection 現象1: レビュー間隔分布の異なり 9 レビュー数 同一ユーザの前回のレビューからの間隔(※対数) 前投稿から 〜数分 まとめてレビュー 書くモード 前投稿から 数時間〜 久々にレビュー 書くモード すごくあやしい あや しい ● 二峰性であることに 基づき、ユーザ状態 を active/inactive の 2種類でモデル化 spam/ham active state 間隔 Labeled HMM を提案 (階層ベイズ的なイメージか)
  • 10. ● ユーザ状態を co-bursting mode (0/1) の2種類でモデ ル化 ● Labeled HMM に 統合 Bimodal Distribution and Co-Bursting in Review Spam Detection 現象2: 短時間窓内の同時レビュー 10 co-bursting 突如ある日に 同時に書きまくる spam/ham active state 間隔 co-burst mode co-burst signal Coupled HMM を提案 (signal は時間窓内の同時レ ビュー数等の6つのmetrics)
  • 11. Bimodal Distribution and Co-Bursting in Review Spam Detection 性能評価@中国のレストランレビューサイト 11 ★ Recall: スパム網羅率, Precision: スパム指摘の精度, F1: R, P の調和平均 いずれも高いほどうれしい 従来 提案 co-bursting のみ 両方 bimodal のみ
  • 12. Bimodal Distribution and Co-Bursting in Review Spam Detection 考察・まとめ・雑感 ● 考察 – 特に Recall が大きく上昇: テキスト・単体ユーザの行動に基づく検出限界を突破 ● まとめ – レビュー間隔の分布 (bimodal dist.) と co-bursting の 特徴を発見 + 活用したモデルを提案 → 性能向上 ● 雑感 – 同種のスパムがどの程度あったのだろうか (特定タイプ/集団のスパムに特化していないか?) 12
  • 13. 3. Question Answering & Topic Modeling 13
  • 14. Question Answering & Topic Modeling どんなセッション? ● 目的: – QA: 自然言語応答システムの開発/質問応答ウェブサイ ト等での情報抽出・整理 – TM: 文書群の潜在的トピックをモデル化して整理 ● 手法: 自然言語処理 + α ● 傾向: 当セッションは「その他」なのでは…? – QA: タスクが三者三様 – TM: 発表は今回一件のみ、あまり WWW 的ではないのか も…?(とは言え、2014年には個別セッションがあった) 14
  • 15. Question Answering & Topic Modeling セッション発表1行要約(1/2) ● Automated Template Generation for Question Answering over Knowledge Graphs – KG を利用した質問回答システムのため、自然言語文 → KGクエリ変換テン プレートを distant supervision で自動生成 & 回答性能向上を示す ● A Semantic Graph-Based Approach for Mining Common Topics from Multiple Asynchronous Text Streams – 複数ソース (stream) からの入力文書群を対象。ソースの差異による、 「文面の違い」と「時間の違い」をそれぞれ解決するモデルと、 それらを統合したトピックモデルを提案 15
  • 16. Question Answering & Topic Modeling セッション発表1行要約(2/2) ● Neural Network-based Question Answering over Knowledge Graphs on Word and Character Level – NN による end-to-end な質問応答手法。単語情報に加え、 out-of-vocabuluary 対策として文字レベルの情報も活用 ● Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules – StackOverflow の重複質問の検出を目的。素性に doc2vec, LDA に加え、 SO 特有の連想語リスト (e.g. append - concatenate) を生成し活用 16 もう少し詳しく 取り上げます!
  • 17. Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules 目的: SO 重複質問の検出 ● 既出の質問はよろしくない → 検出したい ● – doc2vec, LDA + SO 連想語 (association pair) を素性に ■ 既に重複と分かっている投稿群から association pair を獲得 – extensive evaluation: 様々な素性や分類器による性能差を調査 17 アイディア・貢献 既に回答済み マーク
  • 18. Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules 素性1, 2: doc2vec, LDA ● 問題設定: 入力: 2つの質問、出力: 重複質問か? { 0, 1 } – 全組み合わせにやるのは厳しいので共通タグがある ペアのみを取り上げる(言語名とか; SO は投稿時タグ必須) ● 素性 1, 2: 文書ベクトル表現の cosine 類似度 – doc2vec: word2vec の文書拡張版 – LDA: つよいトピックモデル ([19] の単文書強化版を利用) 18 タイトルのみ、本文のみ、両方でベクトル化した 3種類の類似度を素性とする
  • 19. Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules 素性3: 連想対 for PCQA ● PCQA は特有の関連語が 多いドメイン → 1. 重複と既に分かっている 質問タイトル群から連想対を獲得 – 機械翻訳の word alignment の手法を援用 [22] 2. 各連想対の重みを devset で予め学習 – 重複検出に有用か (predictive power) は連想対で異なる – 重みは簡単な perceptron で学習 19
  • 20. Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules 性能評価 - 素性 ● TF-IDF (VSM) はさっぱり – 単純に頻度を使うだけでは重複検出は難しいよう ● 提案素性はどれも効いているが連想対素性が最も良い – 他の「文書全体のベクトル」より連想対の共起が直接効く? 20 TF-IDF 提案 ROC curve: 左上ほど良い doc2vec LDA assoc. pair ★ Recall: 重複検出網羅率, F1: Recall, Precision (検出精度) の調和平均
  • 21. Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules 性能評価 - 分類器 ● K-NN はさっぱり – 全素性を同一の重要度としている点でイマイチか ● Random Forest が概ね最も良い – 様々なタスクに有用だが、本タスクでも有用性が示された 21 ROC curve: 左上ほど良い ★ Recall: 重複検出網羅率, F1: Recall, Precision (検出精度) の調和平均
  • 22. Detecting Duplicate Posts in Programming QA Communities via Latent Semantics and Association Rules まとめ・雑感 ● まとめ – 重複質問検出のための3素性を提案、中でも PCQA ドメイ ン用に提案した association pair がなかなか有効 – extensive evaluation により有効性を確認 ● 雑感 – 完全な新手法の提案ではなく、既存手法の組み合わせで バリューを出しているところが参考になる ■ ドメイン特化の改良 + 詳細な実験による比較がポイントか – タイトル/本文/組み合わせのどれが効いたか気になる 22