Camouflaged chinese spam_content_detection_with_semi-supervised_generative_active_learning
1. Camouflaged Chinese Spam
Content Detection with Semi-
supervised Generative Active
Learning
Zhuoren Jiang, Zhe Gao, Yu Duan, Yangyang Kang2, Changlong Sun, Qiong Zhang, Xiaozhong Liu
ACL 2020 , @論文読み会, 紹介者: Yoshiaki Kitagawa
※スライド中の資料は論文から引用しています
2. Summary
Task
Mobile Spam Detection
SMS message に含まれる spam message
を検出するタスク
先行研究と比べてどこがすごいか?
spam message に sensitive
新しい sample を探す際に、Labeled デー
タとの比較の必要がなく、 O(N) の計算量
中国語の特徴を扱える
技術や手法のキモ
Data hungry problem に有効な手法
Self-Diversity Based Active Learning
S-VAE with Masked Attention Learning
どうやって有効だと検証したか?
Spam, non-spam メッセージの2値分類
Iteration を回して spam message の取得数とaccuracy
を比較
議論はあるか?
Iteration を回す際に人手の介入があるので、正確な比
較ができないのではないか?
次に読むべき論文
Active Learning の元論文 [Cohn et al., 1996]
S-VAE の元論文 [Kingma et al., 2014]
3. Introduction
機会学習のラベリングはコストが高い
tedious, laborious, and time consuming task for humans
高いパフォーマンスを低いアノテーションコストで達成するために active learning があるが、
spam message 検出では次の課題がある
課題:
Imbalance: spam の比率がとても低い “much less than 1% of SMS messages were spam”
Efficiency: unlabeled data を labeled data と比較するときに計算量が O(N^2)
Camouflage: spamer に見た目、音的な違いを利用される