論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
1. The Contribution of Stylistic
Information to Content-based
Mobile Spam Filtering
Dae-Neung Sohn, Jung-Tae Lee and Hae-Chang Rim
ACL 2009 , @論文読み会, 紹介者: Yoshiaki Kitagawa
※スライド中の資料は論文から引用しています
2. Summary
Task
Mobile Spam Detection
SMS message に含まれる spam message
を検出するタスク
先行研究と比べてどこがすごいか?
今までの基本的な単語、文字 n-gram に
加えて、Stylistic Information (文体情報)
が使えることを示したこと
技術や手法のキモ
Stylistic Information (文体情報)を表す素性
4つ
Length features: LEN
Function word frequencies: FW
Part-of-speech n-grams: POS
Special characters: SC
どうやって有効だと検証したか?
Spam, non-spam メッセージの2値分類
1-AUC (TREC という データセットと評価 toolkit があったら
しいがそれに準拠)
ROC 曲線
議論はあるか?
韓国語以外でも Stylistic Information が有用か?
データの分布がランダムサンプリングではない
fp, fn の 例が見たかった(韓国語なのでわからないが)
Deep な 言語モデルで Stylistic Information を捉えられるなら
面白そう
次に読むべき論文
Spam 検出系のデータセットと手法がまとまった資料があれ
ば知りたい
Web spam detection の論文も読みたい
Spam review detection の論文多かった
Mendenhall [1887] が古すぎて気になった