Semantic Parsing in Bayesian Anti Spam

560 views
465 views

Published on

Published in: Technology, News & Politics
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
560
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
17
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide
  • 垃圾邮件 贝叶斯方法——文本分类方法——机器学习 浅层句法分析 贝叶斯公式——基于的假设 句法信息——基于的假设
  • 2009 年第三季度,中国网民每周收到垃圾邮件的数量为 15.08 封,比例 53.38% ,垃圾邮件数量已经超过了正常邮件数量。 危害 耗费带宽 计算机时空资源 影响正常工作 垃圾邮件的特征 (暂无标准定义) “ 不请自来” 商业或者宣传目的 与接受者的判断标准有关系
  • Automated Methods for filtering junk E-mail To automatically adapt to the changes in the characteristics of junk mail over time To be personalized of one user’s mail 领域特点 用户难以容忍正常邮件忍错判成垃圾邮件 (希望能有形式化的判断理论) 有较高的性能要求 不同于常规的分类,垃圾邮件的判断因人而异 解决方向 阻断根源 存在发现(主流) (其中基于内容的垃圾邮件过滤技术是当前的研究重点) 解决方法 黑白名单(管理员的主观性会造成漏判误判) 基于内容的机器学习 (一个特定领域的文本分类) 基于规则的方法 概率统计的方法( kNN 方法,  SVM 方法, Bayes 方法) 缺点(语法,)
  • Automated Methods for filtering junk E-mail To automatically adapt to the changes in the characteristics of junk mail over time To be personalized of one user’s mail 领域特点 用户难以容忍正常邮件忍错判成垃圾邮件 (希望能有形式化的判断理论) 有较高的性能要求 不同于常规的分类,垃圾邮件的判断因人而异 解决方向 阻断根源 存在发现(主流) (其中基于内容的垃圾邮件过滤技术是当前的研究重点) 解决方法 黑白名单(管理员的主观性会造成漏判误判) 基于内容的机器学习 (一个特定领域的文本分类) 基于规则的方法 概率统计的方法( kNN 方法,  SVM 方法, Bayes 方法) 缺点(语法,)
  • Automated Methods for filtering junk E-mail To automatically adapt to the changes in the characteristics of junk mail over time To be personalized of one user’s mail 领域特点 用户难以容忍正常邮件忍错判成垃圾邮件 (希望能有形式化的判断理论) 有较高的性能要求 不同于常规的分类,垃圾邮件的判断因人而异 解决方向 阻断根源 存在发现(主流) (其中基于内容的垃圾邮件过滤技术是当前的研究重点) 解决方法 黑白名单(管理员的主观性会造成漏判误判) 基于内容的机器学习 (一个特定领域的文本分类) 基于规则的方法 概率统计的方法( kNN 方法,  SVM 方法, Bayes 方法) 缺点(语法,)
  • Automated Methods for filtering junk E-mail To automatically adapt to the changes in the characteristics of junk mail over time To be personalized of one user’s mail 领域特点 用户难以容忍正常邮件忍错判成垃圾邮件 (希望能有形式化的判断理论) 有较高的性能要求 不同于常规的分类,垃圾邮件的判断因人而异 解决方向 阻断根源 存在发现(主流) (其中基于内容的垃圾邮件过滤技术是当前的研究重点) 解决方法 黑白名单(管理员的主观性会造成漏判误判) 基于内容的机器学习 (一个特定领域的文本分类) 基于规则的方法 概率统计的方法( kNN 方法,  SVM 方法, Bayes 方法) 缺点(语法,)
  • Automated Methods for filtering junk E-mail To automatically adapt to the changes in the characteristics of junk mail over time To be personalized of one user’s mail 领域特点 用户难以容忍正常邮件忍错判成垃圾邮件 (希望能有形式化的判断理论) 有较高的性能要求 不同于常规的分类,垃圾邮件的判断因人而异 解决方向 阻断根源 存在发现(主流) (其中基于内容的垃圾邮件过滤技术是当前的研究重点) 解决方法 黑白名单(管理员的主观性会造成漏判误判) 基于内容的机器学习 (一个特定领域的文本分类) 基于规则的方法 概率统计的方法( kNN 方法,  SVM 方法, Bayes 方法) 缺点(语法,)
  • Over-emphasized punctuation (e.g., !!!) Non-textual features (e.g., Mail Header)
  • 评价方法 语料库 召回率( Recall ):召回率越高,“漏网”的垃圾邮件就越少 正确率( Precision ):正确率越大,将非垃圾邮件误判为垃圾邮件的数量越少 精确率( Accuracy ):所有邮件的判对率 加权错误率:因为错判的影响非常大,需要给错判加上一个较大的权重
  • 评价方法 语料库 召回率( Recall ):召回率越高,“漏网”的垃圾邮件就越少 正确率( Precision ):正确率越大,将非垃圾邮件误判为垃圾邮件的数量越少 精确率( Accuracy ):所有邮件的判对率 加权错误率:因为错判的影响非常大,需要给错判加上一个较大的权重
  • 评价方法 语料库 召回率( Recall ):召回率越高,“漏网”的垃圾邮件就越少 正确率( Precision ):正确率越大,将非垃圾邮件误判为垃圾邮件的数量越少 精确率( Accuracy ):所有邮件的判对率 加权错误率:因为错判的影响非常大,需要给错判加上一个较大的权重
  • 评价方法 语料库 召回率( Recall ):召回率越高,“漏网”的垃圾邮件就越少 正确率( Precision ):正确率越大,将非垃圾邮件误判为垃圾邮件的数量越少 精确率( Accuracy ):所有邮件的判对率 加权错误率:因为错判的影响非常大,需要给错判加上一个较大的权重
  • 评价方法 语料库 召回率( Recall ):召回率越高,“漏网”的垃圾邮件就越少 正确率( Precision ):正确率越大,将非垃圾邮件误判为垃圾邮件的数量越少 精确率( Accuracy ):所有邮件的判对率 加权错误率:因为错判的影响非常大,需要给错判加上一个较大的权重
  • Semantic Parsing in Bayesian Anti Spam

    1. 1. Naïve Bayesian Anti-Spam basedon Shallow Syntactic Parsing Tao He elfinhe@gmail.com Software Engineering Laboratory Department of Computer Science Sun Yat-Sen University April 22, 2010 About 40 minutes 1/10
    2. 2. Outline Background Naïve Bayesian Anti-Spam Shallow Syntactic Parsing My Approach Evaluation Future Work 2/10
    3. 3. Background Junk E-mail ( Spam )  Wastes user time  Fill-up file server storage space  Influences company’s daily work Definition  Unwanted  Commercial  Depends on user’s measure 3/10
    4. 4. Naïve Bayesian Anti-SpamData Sets Token Sets Scan Parse Classifier Judge User Judge & Update 4/10
    5. 5. Naïve Bayesian Anti-Spam (cont) A automated Method[1]  To learn from data in a user’s mail repository  To adapt to the changes over time  To be personalized of one user’s mail[1] M. Sahami, S. Dumais, D. Heckerman and E. Horvitz, A Bayesian Approach to filtering Junk E-mail[C]. In:Proc 5/10of the AAAI Workshop on Learning for Text Categorization,1998,pp.55-62,1998
    6. 6. Naïve Bayesian Anti-Spam (cont)  Hypothesis  Independence assumption Naïve Bayesian Network A more complex Bayesian Network[1] M. Sahami, S. Dumais, D. Heckerman and E. Horvitz, A Bayesian Approach to filtering Junk E-mail[C]. In:Procof the AAAI Workshop on Learning for Text Categorization,1998,pp.55-62,1998 6/10
    7. 7. Naïve Bayesian Anti-Spam (cont) P (C spam ) P( X t | Cspam ) P(Cspam | X t ) = |C | ∑ P(C ) P( X i =1 i t | C spam ) Learning Procedure P (C spam ) P ( X t | Cspam )P(Cspam | X1 , X 2 ,..., X n ) = n n ∏ P(C i =1 spam | X i ) + ∏ (1 − P (C spam | X i )) i =1 Judge Procedure 7/10
    8. 8. Spam Ham Data Set Data Set A New Mail 法轮功 法律 功律 法:1 法:1 轮:1 律:1 功:1 P(法):0.3 P(法):0.5 P(轮):0.3 P(律):0.5 P(功):0.3 P(Spam | 法):0.3 / (0.3+0.5) = 0.375 P(Spam | 轮):0.3 / (0.3+0) = 1 A Example P(Spam | 功):0.3 / (0.3+0) = 1 P(Spam | 律):0 / (0+0.5) = 0P(Spam | 功, 律)=P(Spam | 功)*P(Spam | 律)/P(Spam | 功)*P(Spam | 律)+(1-P(Spam | 功))*(1-P(Spam | 律))=0 8/10
    9. 9. Shallow Syntactic Parsing  Syntactic Features [2]  POS  Chunk  Dependency Relations [3]  Predicate-argument Structure  Named Entities  WordNet Senses  Class-Specific Related Words[2] X Li, D Roth, K Smal, The role of semantic information in learning question classifiers. Proceedings of theInternational Joint Conference, 2004[3] K Hacioglu, Semantic role labeling using dependency trees ,Proceedings of the 20th international conference onComputational Linguistics, 2004 9/10
    10. 10. Shallow Syntactic Parsing A Example of Dependency Relations . 10/10
    11. 11. My Approach  Motivation  To rise the precision( reduce error judge from ham to spam)  General Parsing is inefficiency.  Few attempts to study syntactic information in the context of classification [2]  Domain Specific Properties  Phrases (e.g., 出售发票 ) [1]  Dependency Relations [3][1] M. Sahami, S. Dumais, D. Heckerman and E. Horvitz, A Bayesian Approach to filtering Junk E-mail[C]. In:Procof the AAAI Workshop on Learning for Text Categorization,1998,pp.55-62,1998[2] X Li, D Roth, K Smal, The role of semantic information in learning question classifiers. Proceedings of theInternational Joint Conference, 2004[3] K Hacioglu, Semantic role labeling using dependency trees ,Proceedings of the 20th international conference onComputational Linguistics, 2004 11/10
    12. 12. My Approach (cont) Feature Space  Words  Phrases  Dependency Relations in sentence 12/10
    13. 13. My Approach (cont) 读取一个词元 如果是动词 判断词元词性 如果是名词 其他 保存特征 保存特征 保存特征 (当前动词,最近名词) (当前词) (最近动词,当前名词) 保存特征 保存特征 (相邻动词,当前动词) (相邻形容词,当前名词)读取下一个词 保存特征 (相邻副词,当前动词) 刷新对过去词的记录 13/10
    14. 14. My Approach (cont) : A Example Origin  现有一部分普通发票代开 Token  现 /tg 有 /vyou 一部分 /m 普通 /a 发票 /n 代开 /vt Naïve Features  ( 现 /tg),( 有 /vyou),( 一部分 /m), ( 普通 /a),( 发票 /n),( 代开 /vt) Syntactic Features  ( 有 /vyou, 发票 /n) , ( 普通 /a, 发票 /n) , ( 发票 /n, 代开 /vt) 14/10
    15. 15. Evaluation Fact Spam Fact Ham Judge Spam A B Judge Ham C D Ns=A+C , Nl=B+D A A R = =  Recall: A +C Ns A  Precision: P= A+ B  Weighted Error Rate [4] : λB + C WErr = , where, λ = 999 λN l + N s[4] I Androutsopoulos, J Koutsias, KV Chandrinos. An Evaluation of Naïve Bayesian Anti-Spam Filtering. Proc. ofthe workshop, 2000 15/10
    16. 16. Evaluation (cont) Naïve Parsing: Fact Spam Fact Ham Judge Spam A = 11647 B=0 Judge Ham C = 3662 D = 4043 Syntactic Parsing: Fact Spam Fact Ham Judge Spam A = 14378 B = 13 Judge Ham C = 930 D = 4042 Syntactic Parsing Naïve ParsingRecall 76.08% 93.9%Precision 100% 99.91%Weighted Error Rate 0.09% 0.34%Time Cost ( s / 1000 mails ) 3.81 2.26 16/10
    17. 17. Evaluation (cont) Advantage  Higher Precision  Acceptable Speed  Lower Weighted Error Rate Disadvantage  Higher Recall Applicable Background  Server-side Anti-Spam 17/10
    18. 18. Future Work Map-reduce Other Syntactic Features 18/10
    19. 19. Thank you! 19/10

    ×