Your SlideShare is downloading. ×
0
Jak wykrywać spam
w e-mailach
Krzysztof Bańkowski
Maciej Łukasik
Stanisław Małolepszy


14 kwietnia 2008, Warszawa
Plan wystąpienia

Dlaczego walczymy ze spamem?
Metody wykrywania spamu
Zasady działania filtrów bayesowskich
Demonstracja
Z...
Dlaczego walczymy ze
spamem?

$ 20 000 000 000
Dlaczego spam jest
szkodliwy?
powoduje zatykanie się łącz, marnuje miejsce na
twardych dyskach oraz spowalnia serwery
stra...
Najwięksi spamerzy



 USA        Korea Pd.
 Chiny      Rosja
 Brazylia   Francja
 Niemcy     Turcja
 Polska     Wlk. Bryt...
Metody wykrywania spamu
Skargi do dostawców
internetu
zalety: nieskomplikowana metoda, podnosi koszty
spamowania
wady: metoda pracochłonna i mało ...
Mail server blacklist

 zalety: blokowanie spamu już na etapie serwera
 wady: rozwiązanie inwazyjne, niekompletne i często...
Signature-based filtering

 zalety: sporadycznie blokuje dobre maile
 wady: skuteczność w wychwytywaniu spamu tylko na
 poz...
Rule-based filtering
(filtr heurystyczny)
 zalety: wykrywa nawet 90-95% spamu, prosty do
 obsługi dla użytkownika
 wady: sto...
Challenge-response filtering

 zalety: skuteczny w 99,9%
 wady: irytujący, powoduje opóźnienia w dostarczaniu
 maili oraz c...
Filtry Bayesowskie

 zalety: wychwytuje od 99% do 99,9% spamu,
 niska ilość maili zakwalifikowanych jako false positive
 wa...
Zasady działania filtrów
bayesowskich
Problem – klasyfikacja
dokumentu
Cel
  Budowa modelu probabilistycznego, który
  klasyfikowałby nowe dokumenty
Założenie
  P...
Problem – klasyfikacja
dokumentu
Budowa modelu
  Zbieranie i przygotowanie danych
  Właściwa budowa modelu (uczenie)
  Test...
Problem – klasyfikacja
dokumentu
Tokenizing
przekształcenie dokumentu w wektor atrybutów

                                 ...
Problem – klasyfikacja
dokumentu
Składowe wektora oparte o atrybuty (występowanie –
zdarzenie losowe)
Podejście 1: występow...
Sieć Bayesowska

Definicja
  acykliczny graf skierowany złożony z węzłów i
  łączących je krawędzi – dobre rozwiązanie do
 ...
Sieć Bayesowska

Topologia
  Węzły – zmienne losowe
  Krawędzie – bezpośrednie zależności (każda
  zmienna niezależna waru...
Sieć Bayesowska
Zastosowanie do klasyfikacji
  Sieć zawiera węzeł C (oznaczenie klasy)
  oraz węzeł Xi (atrybut)


        ...
Podejście 1: algorytm
 Reprezentacja k dokumentów, atrybuty (t1, …, tm):




                              Nij – występowa...
Podejście 1: algorytm
 Jak przyporządkować nowy dokument dj?




                Spam czy Ham?
Podejście 1: algorytm




                                                                                  Procent dokume...
Podejście 2: algorytm
 Reprezentacja k dokumentów, atrybuty (t1, …, tm):




                              Nij – liczba wy...
Podejście 2: algorytm
 Jak przyporządkować nowy dokument dj?




                Spam czy Ham?
Podejście 2: algorytm




                                             Wszystkie kolejności każdego atrybutu
 Wszystkie ko...
Demonstracja
Demonstracja


MS Excel
SpamBayes
SpamBayes – skuteczność
SpamBayes – skuteczność
poprzedniej wersji
Zalety i podsumowanie
Analizowanie wielu
czynników na raz

Nadawca, temat
Słowa kluczowe (“złe” i “dobre”)
Czas, który upłynął między wysłaniem ...
Ciągły proces uczenia
Filtry bayesowskie obliczają prawdopodobieństwo
zdarzenia, że:
  wiadomość jest spamem, oraz
  wiado...
Dostosowanie do profilu
użytkownika

Nie każdy e-mail, który zawiera słowa cash i client jest
spamem – szczególnie, jeśli j...
Wsparcie dla wielu języków


Dzięki procesowi uczenia, filtry sprawdzają się w pracy
na wielu językach
Uwaga: języki o skom...
Skomplikowana technologia

Trudno przechytrzyć filtr bayesowski
  Używanie niewielu typowo spamerskich słów
  Dodawanie tre...
Dziękujemy za uwagę
Creative Commons 2.5 BY-NC-SA
Upcoming SlideShare
Loading in...5
×

Wykrywanie Spamu

1,511

Published on

Metody wykrywania spamu. Prezentacja ze Statystycznych Analiz Decyzji w SGH, wspólnie z Maciejem Łuksikiem i Krzysztofem Bańkowskim.

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,511
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Wykrywanie Spamu"

  1. 1. Jak wykrywać spam w e-mailach Krzysztof Bańkowski Maciej Łukasik Stanisław Małolepszy 14 kwietnia 2008, Warszawa
  2. 2. Plan wystąpienia Dlaczego walczymy ze spamem? Metody wykrywania spamu Zasady działania filtrów bayesowskich Demonstracja Zalety i podsumowanie
  3. 3. Dlaczego walczymy ze spamem? $ 20 000 000 000
  4. 4. Dlaczego spam jest szkodliwy? powoduje zatykanie się łącz, marnuje miejsce na twardych dyskach oraz spowalnia serwery strata czasu dla użytkowników Internetu; utrudnia czytanie „normalnej” poczty i stwarza ryzyko jej utraty (np. z powodu blokad antyspamowych) narusza prywatność i bezpieczeństwo odbiorców spam wiąże się często z różnego rodzaju wirusami i innymi złośliwymi programami
  5. 5. Najwięksi spamerzy USA Korea Pd. Chiny Rosja Brazylia Francja Niemcy Turcja Polska Wlk. Brytania Rumunia Meksyk Inne
  6. 6. Metody wykrywania spamu
  7. 7. Skargi do dostawców internetu zalety: nieskomplikowana metoda, podnosi koszty spamowania wady: metoda pracochłonna i mało skuteczna, czasami trudno rozpoznać dostawcę spamera znaczenie: częściowe rozwiązanie, dla ekspertów, nie dla użytkowników indywidualnych
  8. 8. Mail server blacklist zalety: blokowanie spamu już na etapie serwera wady: rozwiązanie inwazyjne, niekompletne i często nieodpowiedzialne znaczenie: pozwala zatrzymać 50% maili wychodzących
  9. 9. Signature-based filtering zalety: sporadycznie blokuje dobre maile wady: skuteczność w wychwytywaniu spamu tylko na poziomie 50-70% znacznie: pierwszy duży filtr antyspamowy na wielkich serwisach emailowych, np. Brightmail Antispam
  10. 10. Rule-based filtering (filtr heurystyczny) zalety: wykrywa nawet 90-95% spamu, prosty do obsługi dla użytkownika wady: stosunkowo dużo dobrych maili odrzuconych (false positive), zróżnicowana skuteczność znaczenie: tak wyglądała walka ze spamem do 2002 roku, obecnie np. Spamassasin
  11. 11. Challenge-response filtering zalety: skuteczny w 99,9% wady: irytujący, powoduje opóźnienia w dostarczaniu maili oraz często doprowadza do niedostarczenia poczty znaczenie: kompromituje osobę używającą narzędzi tego typu
  12. 12. Filtry Bayesowskie zalety: wychwytuje od 99% do 99,9% spamu, niska ilość maili zakwalifikowanych jako false positive wady: wymaga od użytkownika odrobiny wysiłku znaczenie: obecnie najlepsze rozwiązanie dla użytkowników indywidualnych, np. SpamProbe
  13. 13. Zasady działania filtrów bayesowskich
  14. 14. Problem – klasyfikacja dokumentu Cel Budowa modelu probabilistycznego, który klasyfikowałby nowe dokumenty Założenie Poszczególne klasy są znane (S, H)
  15. 15. Problem – klasyfikacja dokumentu Budowa modelu Zbieranie i przygotowanie danych Właściwa budowa modelu (uczenie) Testowanie modelu Zastosowanie do klasyfikacji nowych dokumentów
  16. 16. Problem – klasyfikacja dokumentu Tokenizing przekształcenie dokumentu w wektor atrybutów Synthetized Header tokens Body tokens tokens Występowanie słów w Występowanie słów nagłówku Brak tematu w tekście Duża liczba adresatów wiadomości Obecność znaków Ten sam adresat, różne Godzina rozsyłania specjalnych domeny
  17. 17. Problem – klasyfikacja dokumentu Składowe wektora oparte o atrybuty (występowanie – zdarzenie losowe) Podejście 1: występowanie atrybutu, wartości składowych → (0, 1) Rozkład dwupunktowy Podejście 2: ilość wystąpienia atrybutu, wartości składowych → (0, 1, 2, …) Rozkład Poissona
  18. 18. Sieć Bayesowska Definicja acykliczny graf skierowany złożony z węzłów i łączących je krawędzi – dobre rozwiązanie do przedstawienia łącznego rozkładu prawdopodobieństwa dla wszystkich atrybutów
  19. 19. Sieć Bayesowska Topologia Węzły – zmienne losowe Krawędzie – bezpośrednie zależności (każda zmienna niezależna warunkowo od niepotomków) Tablica prawdopodobieństw – dla każdego węzła zdefiniowana tablica prawdopodobieństw warunkowych pod warunkiem jego rodziców
  20. 20. Sieć Bayesowska Zastosowanie do klasyfikacji Sieć zawiera węzeł C (oznaczenie klasy) oraz węzeł Xi (atrybut) C Klasyfikator Naive Bayes X1 X2 X3 Xn
  21. 21. Podejście 1: algorytm Reprezentacja k dokumentów, atrybuty (t1, …, tm): Nij – występowanie atrybutu ti w dokumencie dj Potrafimy przyporządkować d1, d2,…, dk do klas (S, H).
  22. 22. Podejście 1: algorytm Jak przyporządkować nowy dokument dj? Spam czy Ham?
  23. 23. Podejście 1: algorytm Procent dokumentów Procent dokumentów Warunkowa niezależność zdarzeń klasy S spośród Twierdzenie Bayesa klasy S posiadających wszystkich atrybut xi dokumentów
  24. 24. Podejście 2: algorytm Reprezentacja k dokumentów, atrybuty (t1, …, tm): Nij – liczba wystąpień atrybutu ti w dokumencie dj Potrafimy przyporządkować d1, d2,…, dk do klas (S, H).
  25. 25. Podejście 2: algorytm Jak przyporządkować nowy dokument dj? Spam czy Ham?
  26. 26. Podejście 2: algorytm Wszystkie kolejności każdego atrybutu Wszystkie kolejności wszystkich atrybutów
  27. 27. Demonstracja
  28. 28. Demonstracja MS Excel SpamBayes
  29. 29. SpamBayes – skuteczność
  30. 30. SpamBayes – skuteczność poprzedniej wersji
  31. 31. Zalety i podsumowanie
  32. 32. Analizowanie wielu czynników na raz Nadawca, temat Słowa kluczowe (“złe” i “dobre”) Czas, który upłynął między wysłaniem a dostarczeniem wiadomości
  33. 33. Ciągły proces uczenia Filtry bayesowskie obliczają prawdopodobieństwo zdarzenia, że: wiadomość jest spamem, oraz wiadomość jest pożądanym e-mailem Viagra – jak wielu Waszych znajomych używa tego słowa w e-mailach do Was? A jak wielu używa słowa V1agra?
  34. 34. Dostosowanie do profilu użytkownika Nie każdy e-mail, który zawiera słowa cash i client jest spamem – szczególnie, jeśli jesteśmy firmą Filtry bayesowskie dostosowują się do profilu użytkownika
  35. 35. Wsparcie dla wielu języków Dzięki procesowi uczenia, filtry sprawdzają się w pracy na wielu językach Uwaga: języki o skomplikowanej gramatyce mogą stwarzać problemy (trudna lematyzacja)
  36. 36. Skomplikowana technologia Trudno przechytrzyć filtr bayesowski Używanie niewielu typowo spamerskich słów Dodawanie treści spersonalizowanych pod użytkownika (bardzo trudne dla spamerów) Dodawanie fragmentów książek, poezji, Biblii
  37. 37. Dziękujemy za uwagę Creative Commons 2.5 BY-NC-SA
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×