SlideShare a Scribd company logo
1 of 14
Camouflaged Chinese Spam
Content Detection with Semi-
supervised Generative Active
Learning
Zhuoren Jiang, Zhe Gao, Yu Duan, Yangyang Kang2, Changlong Sun, Qiong Zhang, Xiaozhong Liu
ACL 2020 , @論文読み会, 紹介者: Yoshiaki Kitagawa
※スライド中の資料は論文から引用しています
Summary
 Task
 Mobile Spam Detection
 SMS message に含まれる spam message
を検出するタスク
 先行研究と比べてどこがすごいか?
 spam message に sensitive
 新しい sample を探す際に、Labeled デー
タとの比較の必要がなく、 O(N) の計算量
 中国語の特徴を扱える
 技術や手法のキモ
 Data hungry problem に有効な手法
 Self-Diversity Based Active Learning
 S-VAE with Masked Attention Learning
 どうやって有効だと検証したか?
 Spam, non-spam メッセージの2値分類
 Iteration を回して spam message の取得数とaccuracy
を比較
 議論はあるか?
 Iteration を回す際に人手の介入があるので、正確な比
較ができないのではないか?
 次に読むべき論文
 Active Learning の元論文 [Cohn et al., 1996]
 S-VAE の元論文 [Kingma et al., 2014]
Introduction
 機会学習のラベリングはコストが高い
 tedious, laborious, and time consuming task for humans
 高いパフォーマンスを低いアノテーションコストで達成するために active learning があるが、
spam message 検出では次の課題がある
 課題:
 Imbalance: spam の比率がとても低い “much less than 1% of SMS messages were spam”
 Efficiency: unlabeled data を labeled data と比較するときに計算量が O(N^2)
 Camouflage: spamer に見た目、音的な違いを利用される
SIGNAL (Semi-supervised Generative Active Learning)Model
Self-Diversity Based Active Learning
 アノテーションをする価値があるかどうかを測る指標 SDi を導入
 p は現在の classifier の prediction
 (数式の説明が書けないので詳細は論文の方が良いです)
S-VAE with Masked Attention Learning
 Semi-supervised Variational AutoEncoder (S-VAE) (Kingma et al., 2014)
 似た text を生成するのに利用する
 確率的にマスクをかけて S-VAE を利用する
Character Variation Graph-enhanced
Augmentation
 S-VAE で生成した text を拡張する
 A Chinese character variation graph G (Jiang et al., 2019a) でグラフを作りランダム
ウォークでエッジを辿って拡張を行うイメージっぽい
SIGNAL の 疑似コード
データ&評価
 Chinese SMS dataset:
 48,896 testing samples
 23,891 spam samples
 25,005 normal samples.
 200件 を最初の labeled セットとしてランダムサンプリングしてイテレーションを
回して評価
 評価は 10回イテレーションを回したときに取得できる spam message の数と
acuuracy
実験結果
 Baseline:
 Uncertainty [Lewis and Gale, 1994]
 Margin [Roth and Small, 2006]
 Entolopy [Li and Guo, 2013]
 A: 10イテレーション回した際の spam
sample の取得数
 B,C,D: spam sample 取得数に対しての
accuracy
実験結果2
 Stylistic Information (文体情報) は fp rate を変えずに、fn rate を強めることができている
 すなわち誤検出率を変えずに、recall を高める効果がある (解釈)
実験結果(具体例)
Summary
 Task
 Mobile Spam Detection
 SMS message に含まれる spam message
を検出するタスク
 先行研究と比べてどこがすごいか?
 spam message に sensitive
 新しい sample を探す際に、Labeled デー
タとの比較の必要がなく、 O(N) の計算量
 中国語の特徴を扱える
 技術や手法のキモ
 Data hungry problem に有効な手法
 Self-Diversity Based Active Learning
 S-VAE with Masked Attention Learning
 どうやって有効だと検証したか?
 Spam, non-spam メッセージの2値分類
 Iteration を回して spam message の取得数とaccuracy
を比較
 議論はあるか?
 Iteration を回す際に人手の介入があるので、正確な比
較ができないのではないか?
 次に読むべき論文
 Active Learning の元論文 [Cohn et al., 1996]
 S-VAE の元論文 [Kingma et al., 2014]
参考資料
 論文: https://www.aclweb.org/anthology/2020.acl-main.279.pdf

More Related Content

More from Ace12358

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_baseAce12358
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsAce12358
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Ace12358
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016Ace12358
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup ltAce12358
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsAce12358
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2ndAce12358
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morphAce12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358Ace12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358 Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358Ace12358
 

More from Ace12358 (14)

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup lt
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2nd
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morph
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Recently uploaded (8)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

Camouflaged chinese spam_content_detection_with_semi-supervised_generative_active_learning

  • 1. Camouflaged Chinese Spam Content Detection with Semi- supervised Generative Active Learning Zhuoren Jiang, Zhe Gao, Yu Duan, Yangyang Kang2, Changlong Sun, Qiong Zhang, Xiaozhong Liu ACL 2020 , @論文読み会, 紹介者: Yoshiaki Kitagawa ※スライド中の資料は論文から引用しています
  • 2. Summary  Task  Mobile Spam Detection  SMS message に含まれる spam message を検出するタスク  先行研究と比べてどこがすごいか?  spam message に sensitive  新しい sample を探す際に、Labeled デー タとの比較の必要がなく、 O(N) の計算量  中国語の特徴を扱える  技術や手法のキモ  Data hungry problem に有効な手法  Self-Diversity Based Active Learning  S-VAE with Masked Attention Learning  どうやって有効だと検証したか?  Spam, non-spam メッセージの2値分類  Iteration を回して spam message の取得数とaccuracy を比較  議論はあるか?  Iteration を回す際に人手の介入があるので、正確な比 較ができないのではないか?  次に読むべき論文  Active Learning の元論文 [Cohn et al., 1996]  S-VAE の元論文 [Kingma et al., 2014]
  • 3. Introduction  機会学習のラベリングはコストが高い  tedious, laborious, and time consuming task for humans  高いパフォーマンスを低いアノテーションコストで達成するために active learning があるが、 spam message 検出では次の課題がある  課題:  Imbalance: spam の比率がとても低い “much less than 1% of SMS messages were spam”  Efficiency: unlabeled data を labeled data と比較するときに計算量が O(N^2)  Camouflage: spamer に見た目、音的な違いを利用される
  • 4. SIGNAL (Semi-supervised Generative Active Learning)Model
  • 5. Self-Diversity Based Active Learning  アノテーションをする価値があるかどうかを測る指標 SDi を導入  p は現在の classifier の prediction  (数式の説明が書けないので詳細は論文の方が良いです)
  • 6. S-VAE with Masked Attention Learning  Semi-supervised Variational AutoEncoder (S-VAE) (Kingma et al., 2014)  似た text を生成するのに利用する  確率的にマスクをかけて S-VAE を利用する
  • 7. Character Variation Graph-enhanced Augmentation  S-VAE で生成した text を拡張する  A Chinese character variation graph G (Jiang et al., 2019a) でグラフを作りランダム ウォークでエッジを辿って拡張を行うイメージっぽい
  • 9. データ&評価  Chinese SMS dataset:  48,896 testing samples  23,891 spam samples  25,005 normal samples.  200件 を最初の labeled セットとしてランダムサンプリングしてイテレーションを 回して評価  評価は 10回イテレーションを回したときに取得できる spam message の数と acuuracy
  • 10. 実験結果  Baseline:  Uncertainty [Lewis and Gale, 1994]  Margin [Roth and Small, 2006]  Entolopy [Li and Guo, 2013]  A: 10イテレーション回した際の spam sample の取得数  B,C,D: spam sample 取得数に対しての accuracy
  • 11. 実験結果2  Stylistic Information (文体情報) は fp rate を変えずに、fn rate を強めることができている  すなわち誤検出率を変えずに、recall を高める効果がある (解釈)
  • 13. Summary  Task  Mobile Spam Detection  SMS message に含まれる spam message を検出するタスク  先行研究と比べてどこがすごいか?  spam message に sensitive  新しい sample を探す際に、Labeled デー タとの比較の必要がなく、 O(N) の計算量  中国語の特徴を扱える  技術や手法のキモ  Data hungry problem に有効な手法  Self-Diversity Based Active Learning  S-VAE with Masked Attention Learning  どうやって有効だと検証したか?  Spam, non-spam メッセージの2値分類  Iteration を回して spam message の取得数とaccuracy を比較  議論はあるか?  Iteration を回す際に人手の介入があるので、正確な比 較ができないのではないか?  次に読むべき論文  Active Learning の元論文 [Cohn et al., 1996]  S-VAE の元論文 [Kingma et al., 2014]