SlideShare a Scribd company logo
1 of 12
The Contribution of Stylistic
Information to Content-based
Mobile Spam Filtering
Dae-Neung Sohn, Jung-Tae Lee and Hae-Chang Rim
ACL 2009 , @論文読み会, 紹介者: Yoshiaki Kitagawa
※スライド中の資料は論文から引用しています
Summary
 Task
 Mobile Spam Detection
 SMS message に含まれる spam message
を検出するタスク
 先行研究と比べてどこがすごいか?
 今までの基本的な単語、文字 n-gram に
加えて、Stylistic Information (文体情報)
が使えることを示したこと
 技術や手法のキモ
 Stylistic Information (文体情報)を表す素性
4つ
 Length features: LEN
 Function word frequencies: FW
 Part-of-speech n-grams: POS
 Special characters: SC
 どうやって有効だと検証したか?
 Spam, non-spam メッセージの2値分類
 1-AUC (TREC という データセットと評価 toolkit があったら
しいがそれに準拠)
 ROC 曲線
 議論はあるか?
 韓国語以外でも Stylistic Information が有用か?
 データの分布がランダムサンプリングではない
 fp, fn の 例が見たかった(韓国語なのでわからないが)
 Deep な 言語モデルで Stylistic Information を捉えられるなら
面白そう
 次に読むべき論文
 Spam 検出系のデータセットと手法がまとまった資料があれ
ば知りたい
 Web spam detection の論文も読みたい
 Spam review detection の論文多かった
 Mendenhall [1887] が古すぎて気になった
Introduction
 Spam message には “loan” とか “70% off sale” とかいう単語がよく含まれているが、含まれていな
いからといって、 legitimate message がそういう単語を含まないという保証はない
 だから内容語だけ見るのではなく、style information (文体情報) を使えないかと考えた
 仮定:
 Spammer と non-Spammer の2種類の人がいる
 Spammer は 文体情報(やら言語の表現方法など)に distinctive な特徴がある
 SMS message は書き手の指紋を残す
Stylistic Feature Set
 Length features: LEN
 SMS messages のバイト長と単語の平均バイト長
 Function word frequencies: FW
 文字通り、機能語の頻度
 Part-of-speech n-grams: POS
 文字通り、品詞の n-gram (n=1,2,3)
 Special characters: SC
 439 emoticons と 229 special patterns の辞書を作成
 Non-spammer: “:-)” (smiling) とか “T T” (crying)
 Spammer: “$$$” とか “%”
Mobile Spam Filter の学習
 手法: 最大エントロピーモデル
 パラメータ推定: L-BFGS algorithm (準ニュートン法)
 素性選択: Information Gain (Information Gain)
memo
最大エントロピーモデル参考: https://takeda25.hatenablog.jp/entry/20121105/1352385394
データ
 韓国語 SMS messages
 18,000 (60%) legitimate messages
 12,000 (40%) spam messages
評価指標
 1- AUC ; 低ければ低いほど良い指標
 TREC という データセットと評価 toolkit があったらしいがそれに準拠
 ROC 曲線
 ROC曲線 は一般に以下だと思うが、
 TPR(True Positive Ratio)=TP/(TP+FN)を縦軸
 FPR(False Positive Ratio)=FP/(FP+TN)を横軸
 本論文では以下のような ROC 曲線を見ていて、logit になっていることに注意
 logit (FNR(False Negative Ratio)=FN/(TP+FN))を縦軸 (反転)
 logit (FPR(False Positive Ratio)=FP/(FP+TN))を横軸
実験結果1
 Baseline: word, character n-gram
 Proposed: stylistic features 4つ
 Combine: Baseline + Proposed
実験結果2
 Stylistic Information (文体情報) は fp rate を変えずに、fn rate を強めることができている
 すなわち誤検出率を変えずに、recall を高める効果がある (解釈)
実験結果3
 LEN, FW, POS, SC は前述のStylistic Information (文体情報) 素性
 POS がそんなに貢献していないのが意外(著者らも同意見)。SC はやはり結構効いてそう
Summary
 Task
 Mobile Spam Detection
 SMS message に含まれる spam message
を検出するタスク
 先行研究と比べてどこがすごいか?
 今までの基本的な単語、文字 n-gram に
加えて、Stylistic Information (文体情報)
が使えることを示したこと
 技術や手法のキモ
 Stylistic Information (文体情報)を表す素性
4つ
 Length features: LEN
 Function word frequencies: FW
 Part-of-speech n-grams: POS
 Special characters: SC
 どうやって有効だと検証したか?
 Spam, non-spam メッセージの2値分類
 1-AUC (TREC という データセットと評価 toolkit があったら
しいがそれに準拠)
 ROC 曲線
 議論はあるか?
 韓国語以外でも Stylistic Information が有用か?
 データの分布がランダムサンプリングではない
 fp, fn の 例が見たかった(韓国語なのでわからないが)
 Deep な 言語モデルで Stylistic Information を捉えられるなら
面白そう
 次に読むべき論文
 Spam 検出系のデータセットと手法がまとまった資料があれ
ば知りたい
 Web spam detection の論文も読みたい
 Spam review detection の論文多かった
 Mendenhall [1887] が古すぎて気になった
参考資料
 論文: https://www.aclweb.org/anthology/P09-2081.pdf

More Related Content

Similar to The contribution of_stylistic_information_to_content-based_mobile_spam_filtering

CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出Shuyo Nakatani
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?KSK Analytics Inc.
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Yuya Unno
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析Akisato Kimura
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Shohei Hido
 
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)none_toka
 
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介Takahiro Katagiri
 
NSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッションNSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッションDaisuke Kotani
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることデータ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることMasaru Tokuoka
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Toshi Harada
 
Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」Masayuki Isobe
 
Scis2015 ruo ando_2015-01-20-01
Scis2015 ruo ando_2015-01-20-01Scis2015 ruo ando_2015-01-20-01
Scis2015 ruo ando_2015-01-20-01Ruo Ando
 
Ai for marketing
Ai for marketingAi for marketing
Ai for marketingHiroki Iida
 
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験Takahiro Moteki
 

Similar to The contribution of_stylistic_information_to_content-based_mobile_spam_filtering (20)

CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
 
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介
 
NSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッションNSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッション
 
Ibisml vhmm
Ibisml vhmmIbisml vhmm
Ibisml vhmm
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
コース導入講義(荒木)
コース導入講義(荒木)コース導入講義(荒木)
コース導入講義(荒木)
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることデータ入力が終わってから分析前にすること
データ入力が終わってから分析前にすること
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
 
Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」
 
Scis2015 ruo ando_2015-01-20-01
Scis2015 ruo ando_2015-01-20-01Scis2015 ruo ando_2015-01-20-01
Scis2015 ruo ando_2015-01-20-01
 
Ai for marketing
Ai for marketingAi for marketing
Ai for marketing
 
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
 

More from Ace12358

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge basesAce12358
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoningAce12358
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_baseAce12358
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsAce12358
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Ace12358
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016Ace12358
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup ltAce12358
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsAce12358
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2ndAce12358
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morphAce12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358Ace12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358 Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358Ace12358
 

More from Ace12358 (17)

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge bases
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup lt
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2nd
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morph
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Recently uploaded (8)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

The contribution of_stylistic_information_to_content-based_mobile_spam_filtering

  • 1. The Contribution of Stylistic Information to Content-based Mobile Spam Filtering Dae-Neung Sohn, Jung-Tae Lee and Hae-Chang Rim ACL 2009 , @論文読み会, 紹介者: Yoshiaki Kitagawa ※スライド中の資料は論文から引用しています
  • 2. Summary  Task  Mobile Spam Detection  SMS message に含まれる spam message を検出するタスク  先行研究と比べてどこがすごいか?  今までの基本的な単語、文字 n-gram に 加えて、Stylistic Information (文体情報) が使えることを示したこと  技術や手法のキモ  Stylistic Information (文体情報)を表す素性 4つ  Length features: LEN  Function word frequencies: FW  Part-of-speech n-grams: POS  Special characters: SC  どうやって有効だと検証したか?  Spam, non-spam メッセージの2値分類  1-AUC (TREC という データセットと評価 toolkit があったら しいがそれに準拠)  ROC 曲線  議論はあるか?  韓国語以外でも Stylistic Information が有用か?  データの分布がランダムサンプリングではない  fp, fn の 例が見たかった(韓国語なのでわからないが)  Deep な 言語モデルで Stylistic Information を捉えられるなら 面白そう  次に読むべき論文  Spam 検出系のデータセットと手法がまとまった資料があれ ば知りたい  Web spam detection の論文も読みたい  Spam review detection の論文多かった  Mendenhall [1887] が古すぎて気になった
  • 3. Introduction  Spam message には “loan” とか “70% off sale” とかいう単語がよく含まれているが、含まれていな いからといって、 legitimate message がそういう単語を含まないという保証はない  だから内容語だけ見るのではなく、style information (文体情報) を使えないかと考えた  仮定:  Spammer と non-Spammer の2種類の人がいる  Spammer は 文体情報(やら言語の表現方法など)に distinctive な特徴がある  SMS message は書き手の指紋を残す
  • 4. Stylistic Feature Set  Length features: LEN  SMS messages のバイト長と単語の平均バイト長  Function word frequencies: FW  文字通り、機能語の頻度  Part-of-speech n-grams: POS  文字通り、品詞の n-gram (n=1,2,3)  Special characters: SC  439 emoticons と 229 special patterns の辞書を作成  Non-spammer: “:-)” (smiling) とか “T T” (crying)  Spammer: “$$$” とか “%”
  • 5. Mobile Spam Filter の学習  手法: 最大エントロピーモデル  パラメータ推定: L-BFGS algorithm (準ニュートン法)  素性選択: Information Gain (Information Gain) memo 最大エントロピーモデル参考: https://takeda25.hatenablog.jp/entry/20121105/1352385394
  • 6. データ  韓国語 SMS messages  18,000 (60%) legitimate messages  12,000 (40%) spam messages
  • 7. 評価指標  1- AUC ; 低ければ低いほど良い指標  TREC という データセットと評価 toolkit があったらしいがそれに準拠  ROC 曲線  ROC曲線 は一般に以下だと思うが、  TPR(True Positive Ratio)=TP/(TP+FN)を縦軸  FPR(False Positive Ratio)=FP/(FP+TN)を横軸  本論文では以下のような ROC 曲線を見ていて、logit になっていることに注意  logit (FNR(False Negative Ratio)=FN/(TP+FN))を縦軸 (反転)  logit (FPR(False Positive Ratio)=FP/(FP+TN))を横軸
  • 8. 実験結果1  Baseline: word, character n-gram  Proposed: stylistic features 4つ  Combine: Baseline + Proposed
  • 9. 実験結果2  Stylistic Information (文体情報) は fp rate を変えずに、fn rate を強めることができている  すなわち誤検出率を変えずに、recall を高める効果がある (解釈)
  • 10. 実験結果3  LEN, FW, POS, SC は前述のStylistic Information (文体情報) 素性  POS がそんなに貢献していないのが意外(著者らも同意見)。SC はやはり結構効いてそう
  • 11. Summary  Task  Mobile Spam Detection  SMS message に含まれる spam message を検出するタスク  先行研究と比べてどこがすごいか?  今までの基本的な単語、文字 n-gram に 加えて、Stylistic Information (文体情報) が使えることを示したこと  技術や手法のキモ  Stylistic Information (文体情報)を表す素性 4つ  Length features: LEN  Function word frequencies: FW  Part-of-speech n-grams: POS  Special characters: SC  どうやって有効だと検証したか?  Spam, non-spam メッセージの2値分類  1-AUC (TREC という データセットと評価 toolkit があったら しいがそれに準拠)  ROC 曲線  議論はあるか?  韓国語以外でも Stylistic Information が有用か?  データの分布がランダムサンプリングではない  fp, fn の 例が見たかった(韓国語なのでわからないが)  Deep な 言語モデルで Stylistic Information を捉えられるなら 面白そう  次に読むべき論文  Spam 検出系のデータセットと手法がまとまった資料があれ ば知りたい  Web spam detection の論文も読みたい  Spam review detection の論文多かった  Mendenhall [1887] が古すぎて気になった