Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

迷惑メールフィルタの作り方

2,016 views

Published on

4/15日の新歓CpawLTでの発表資料です。
適当です。

Published in: Technology
  • Hi there! I just wanted to share a list of sites that helped me a lot during my studies: .................................................................................................................................... www.EssayWrite.best - Write an essay .................................................................................................................................... www.LitReview.xyz - Summary of books .................................................................................................................................... www.Coursework.best - Online coursework .................................................................................................................................... www.Dissertations.me - proquest dissertations .................................................................................................................................... www.ReMovie.club - Movies reviews .................................................................................................................................... www.WebSlides.vip - Best powerpoint presentations .................................................................................................................................... www.WritePaper.info - Write a research paper .................................................................................................................................... www.EddyHelp.com - Homework help online .................................................................................................................................... www.MyResumeHelp.net - Professional resume writing service .................................................................................................................................. www.HelpWriting.net - Help with writing any papers ......................................................................................................................................... Save so as not to lose
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

迷惑メールフィルタの作り方

  1. 1. スパムメールフィルタ の作り方 ぱろっく
  2. 2. 自己紹介 ぱろっく 僕のことはどうでもいいと思うので割愛
  3. 3. 近況報告 大学4年生になりました うまるちゃん2期決定しました いろいろ疲れたので旅行行きたい 危険な国以外の旅行に誰か誘ってください
  4. 4. 本題
  5. 5. スパムメールとは 迷惑なメール
  6. 6. スパムメールフィルタ 人力で振り分けるのはしんどい 機械学習でひょいっとやってほしい
  7. 7. スパムメールフィルタ 実は相当昔から機械学習的手法を使ってる 今日は簡単なベイジアンフィルタで フィルタリングする手順を紹介します
  8. 8. フィルタリング手順① 学習用の文章を形態素解析する 形態素に分割 必要な形態素のみBag-of-wordsで表現 今日はいい天気だ ↓ 今日|は|いい|天気|だ ↓ [“今日”, “いい”, “天気”] word[1] word[2] word[3] 順番は無い
  9. 9. フィルタリング手順②(訓練) 1. 文章(ラベル付き)を形態素解析 2. スパムカテゴリと正常カテゴリを用意し、 ・各カテゴリの出現回数 ・全ての文章内の単語が各カテゴリに分類された回数 を保存 3. フィルタ作成完了
  10. 10. フィルタリング手順③(識別) 文章Dが与えられた時に、カテゴリCに属している 確率P(a, A)を調べる P(C, D) = P(C|D)P(D) = P(D|C)P(C) P(C)はカテゴリCが生起する確率  訓練データとしてカテゴリCが与えられた件数/総文章数 P(D|C)はカテゴリCが与えられた時文章Dが生起する確率 P(D|C) = P(word[1]|C)P(word[2]|C)...P(word[n]|C)  P(word[n]|C)は、Cにword[n]が出現した回数/Cの全単語数
  11. 11. フィルタリング手順④(識別) スパムカテゴリと正常カテゴリの確率をそれぞれ 求め、高い方に与えられた文章をカテゴライズ フィルタリング終了
  12. 12. 実装 デモ(?)
  13. 13. これで安心するなよ 世の中にはすごいメールがたくさん
  14. 14. これで安心するなよ
  15. 15. これで安心するなよ .窓.口.よ.り.振込.が.御.座.い.ま.す.。 形態素に分けられない
  16. 16. これで安心するなよ
  17. 17. これで安心するなよ sunai/http://hogehoge 先頭にようわからん文字列を入れて フィルタ回避(?)
  18. 18. これで安心するなよ 結局いたちごっこ Googleがディープラーニングで終止符を打とうと 頑張ってます、たぶん

×