Wykrywanie Spamu

1,797 views

Published on

Metody wykrywania spamu. Prezentacja ze Statystycznych Analiz Decyzji w SGH, wspólnie z Maciejem Łuksikiem i Krzysztofem Bańkowskim.

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,797
On SlideShare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
13
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Wykrywanie Spamu

  1. 1. Jak wykrywać spam w e-mailach Krzysztof Bańkowski Maciej Łukasik Stanisław Małolepszy 14 kwietnia 2008, Warszawa
  2. 2. Plan wystąpienia Dlaczego walczymy ze spamem? Metody wykrywania spamu Zasady działania filtrów bayesowskich Demonstracja Zalety i podsumowanie
  3. 3. Dlaczego walczymy ze spamem? $ 20 000 000 000
  4. 4. Dlaczego spam jest szkodliwy? powoduje zatykanie się łącz, marnuje miejsce na twardych dyskach oraz spowalnia serwery strata czasu dla użytkowników Internetu; utrudnia czytanie „normalnej” poczty i stwarza ryzyko jej utraty (np. z powodu blokad antyspamowych) narusza prywatność i bezpieczeństwo odbiorców spam wiąże się często z różnego rodzaju wirusami i innymi złośliwymi programami
  5. 5. Najwięksi spamerzy USA Korea Pd. Chiny Rosja Brazylia Francja Niemcy Turcja Polska Wlk. Brytania Rumunia Meksyk Inne
  6. 6. Metody wykrywania spamu
  7. 7. Skargi do dostawców internetu zalety: nieskomplikowana metoda, podnosi koszty spamowania wady: metoda pracochłonna i mało skuteczna, czasami trudno rozpoznać dostawcę spamera znaczenie: częściowe rozwiązanie, dla ekspertów, nie dla użytkowników indywidualnych
  8. 8. Mail server blacklist zalety: blokowanie spamu już na etapie serwera wady: rozwiązanie inwazyjne, niekompletne i często nieodpowiedzialne znaczenie: pozwala zatrzymać 50% maili wychodzących
  9. 9. Signature-based filtering zalety: sporadycznie blokuje dobre maile wady: skuteczność w wychwytywaniu spamu tylko na poziomie 50-70% znacznie: pierwszy duży filtr antyspamowy na wielkich serwisach emailowych, np. Brightmail Antispam
  10. 10. Rule-based filtering (filtr heurystyczny) zalety: wykrywa nawet 90-95% spamu, prosty do obsługi dla użytkownika wady: stosunkowo dużo dobrych maili odrzuconych (false positive), zróżnicowana skuteczność znaczenie: tak wyglądała walka ze spamem do 2002 roku, obecnie np. Spamassasin
  11. 11. Challenge-response filtering zalety: skuteczny w 99,9% wady: irytujący, powoduje opóźnienia w dostarczaniu maili oraz często doprowadza do niedostarczenia poczty znaczenie: kompromituje osobę używającą narzędzi tego typu
  12. 12. Filtry Bayesowskie zalety: wychwytuje od 99% do 99,9% spamu, niska ilość maili zakwalifikowanych jako false positive wady: wymaga od użytkownika odrobiny wysiłku znaczenie: obecnie najlepsze rozwiązanie dla użytkowników indywidualnych, np. SpamProbe
  13. 13. Zasady działania filtrów bayesowskich
  14. 14. Problem – klasyfikacja dokumentu Cel Budowa modelu probabilistycznego, który klasyfikowałby nowe dokumenty Założenie Poszczególne klasy są znane (S, H)
  15. 15. Problem – klasyfikacja dokumentu Budowa modelu Zbieranie i przygotowanie danych Właściwa budowa modelu (uczenie) Testowanie modelu Zastosowanie do klasyfikacji nowych dokumentów
  16. 16. Problem – klasyfikacja dokumentu Tokenizing przekształcenie dokumentu w wektor atrybutów Synthetized Header tokens Body tokens tokens Występowanie słów w Występowanie słów nagłówku Brak tematu w tekście Duża liczba adresatów wiadomości Obecność znaków Ten sam adresat, różne Godzina rozsyłania specjalnych domeny
  17. 17. Problem – klasyfikacja dokumentu Składowe wektora oparte o atrybuty (występowanie – zdarzenie losowe) Podejście 1: występowanie atrybutu, wartości składowych → (0, 1) Rozkład dwupunktowy Podejście 2: ilość wystąpienia atrybutu, wartości składowych → (0, 1, 2, …) Rozkład Poissona
  18. 18. Sieć Bayesowska Definicja acykliczny graf skierowany złożony z węzłów i łączących je krawędzi – dobre rozwiązanie do przedstawienia łącznego rozkładu prawdopodobieństwa dla wszystkich atrybutów
  19. 19. Sieć Bayesowska Topologia Węzły – zmienne losowe Krawędzie – bezpośrednie zależności (każda zmienna niezależna warunkowo od niepotomków) Tablica prawdopodobieństw – dla każdego węzła zdefiniowana tablica prawdopodobieństw warunkowych pod warunkiem jego rodziców
  20. 20. Sieć Bayesowska Zastosowanie do klasyfikacji Sieć zawiera węzeł C (oznaczenie klasy) oraz węzeł Xi (atrybut) C Klasyfikator Naive Bayes X1 X2 X3 Xn
  21. 21. Podejście 1: algorytm Reprezentacja k dokumentów, atrybuty (t1, …, tm): Nij – występowanie atrybutu ti w dokumencie dj Potrafimy przyporządkować d1, d2,…, dk do klas (S, H).
  22. 22. Podejście 1: algorytm Jak przyporządkować nowy dokument dj? Spam czy Ham?
  23. 23. Podejście 1: algorytm Procent dokumentów Procent dokumentów Warunkowa niezależność zdarzeń klasy S spośród Twierdzenie Bayesa klasy S posiadających wszystkich atrybut xi dokumentów
  24. 24. Podejście 2: algorytm Reprezentacja k dokumentów, atrybuty (t1, …, tm): Nij – liczba wystąpień atrybutu ti w dokumencie dj Potrafimy przyporządkować d1, d2,…, dk do klas (S, H).
  25. 25. Podejście 2: algorytm Jak przyporządkować nowy dokument dj? Spam czy Ham?
  26. 26. Podejście 2: algorytm Wszystkie kolejności każdego atrybutu Wszystkie kolejności wszystkich atrybutów
  27. 27. Demonstracja
  28. 28. Demonstracja MS Excel SpamBayes
  29. 29. SpamBayes – skuteczność
  30. 30. SpamBayes – skuteczność poprzedniej wersji
  31. 31. Zalety i podsumowanie
  32. 32. Analizowanie wielu czynników na raz Nadawca, temat Słowa kluczowe (“złe” i “dobre”) Czas, który upłynął między wysłaniem a dostarczeniem wiadomości
  33. 33. Ciągły proces uczenia Filtry bayesowskie obliczają prawdopodobieństwo zdarzenia, że: wiadomość jest spamem, oraz wiadomość jest pożądanym e-mailem Viagra – jak wielu Waszych znajomych używa tego słowa w e-mailach do Was? A jak wielu używa słowa V1agra?
  34. 34. Dostosowanie do profilu użytkownika Nie każdy e-mail, który zawiera słowa cash i client jest spamem – szczególnie, jeśli jesteśmy firmą Filtry bayesowskie dostosowują się do profilu użytkownika
  35. 35. Wsparcie dla wielu języków Dzięki procesowi uczenia, filtry sprawdzają się w pracy na wielu językach Uwaga: języki o skomplikowanej gramatyce mogą stwarzać problemy (trudna lematyzacja)
  36. 36. Skomplikowana technologia Trudno przechytrzyć filtr bayesowski Używanie niewielu typowo spamerskich słów Dodawanie treści spersonalizowanych pod użytkownika (bardzo trudne dla spamerów) Dodawanie fragmentów książek, poezji, Biblii
  37. 37. Dziękujemy za uwagę Creative Commons 2.5 BY-NC-SA

×