Hadoop case study w bankowości elektronicznej: wspomaganie detekcji efraud
1. Śledzenie ruchów klienta
Monitoring, wizualizacja danych przy użyciu narzędzi big data
Michał Olczak, Radosław Stankiewicz
michal.olczak@bzwbk.pl radoslaw.stankiewicz@bzwbk.pl
2. 2
FRAUDY W BANKOWOŚCI ELEKTRONICZNEJ
MAN IN THE BROWSER – WYŁUDZENIE HASŁA, DANYCH AUTORYZACYJNYCH,
AUTOMATYCZNE PRZELEWY, PRZEKIEROWANIE NA KOPIĘ STRONY:
ZEUS, CITATEL, TINBA, VAWTRAK
PHISHING – WYŁUDZENIE LOGINU I HASŁA
PODMIENIARKI NR RACHUNKÓW:
WIRUS ANALIZUJĄCY PAMIĘĆ PROCESÓW
WIRUS ZMIENIAJĄCY ZAWARTOŚĆ SCHOWKA
ŹRÓDŁA INFEKCJI – MAILING (FAKTURA ZA TELEFON),
DZIURY W PRZEGLĄDARKACH, ACROBAT
Źródło: http://blog.phishlabs.com/
3. 3
REKLAMACJA?
Użytkownik zostawia całą masę śladów w logach. Używamy frameworku Wicket, która bardzo wspiera dostarczanie informacji:
21:04:33.005 [WebContainer : 27] a:Centrum24 - time=117,
event=Interface[
target:ThirdPartyTransferInputPage$ThirdPartyTransferForm(content:mainColumn:form),
page: com.bzwbk.centrum24.web.page.transfer.input.ThirdPartyTransferInputPage(7),
interface:IFormSubmitListener.onFormSubmitted
],
response=PageRequest[com.bzwbk.centrum24.web.page.transfer.confirmation.TransferConfirmationThirdParty(8)],
sessioninfo=[
sid=WC9kGxTD2w7XaPd1tCIJAIa,
uid=12345678,
ip=89.228.199.131,
ua=Mozilla/5.0 (Windows NT 5.1; rv:22.0) Gecko/20100101 Firefox/22.0,
lang=pl
],
sessionstart=Mon Jul 15 21:02:41 CEST 2013,
requests=49,totaltime=4406,activerequests=2,maxmem=12884M,total=12884M,used=8091M
Co zostało
zwrócone
ID, IP, dane
przeglądarki
W co
kliknął
4. 4
WOLUMEN –40 GB DZIENNIE
2 LATA DANYCH
~30TB DANYCH O AKTYWNOŚCI UŻYTKOWNIKÓW.
5. 5
RAPORTOWANIE W SPRAWIE REKLAMACJI
BADANIE AKTYWNOŚCI UŻYTKOWNIKA NA
PRZESTRZENI MIESIĘCY W KONTEKŚCIE NP.
• Lokalizacji IP
• User agent
6. 6
• BADANIE AKTYWNOŚCI UŻYTKOWNIKA NA
PRZESTRZENI MIESIĘCY
• Lokalizacja IP –> lokalizacja geograficzna
• Pula urządzeń -> OS, przeglądarki, aktualizowanie
przeglądarek
• Profilowanie -> długość sesji, ilość kliknięć na
sekundę, popularne godziny, dni logowań, lokalizacje
7. 7
TOR i inne podejrzane IP
Wyłapywanie „online” podejrzanych logowań w
oparciu o słownik IP lub lokalizacji (np. Rosja)
Przeglądarki
Fraudy często są wykonywane z tej samej
przeglądarki, maszyny, ale np. różne IP
danego regionu – monitoring online
podejrzanych przeglądarek
Lokalizacja – nice to have
Wykrywanie zbyt dużej zmiany geograficznej
(odległość + czas)
Nowe urządzenia – nice to have
Logowanie totalnie niezgodne z profilem
użytkownika – lokalizacja, czas, ip,
urządzenie, liczba kliknięć
MONITORING „ONLINE” – BUDOWANIE SILNIKA REGUŁ
PRZY POMOCY OOZIE, PIG, HIVE ITP.
8. 8
WIZUALIZACJA DANYCH – KIBANA + ELASTIC SEARCH
• WSPARCIE WIZUALNE DLA
RAPORTÓW
• INDEKS - FULL TEXT SEARCH
• MAPA ZDARZEŃ
9. 9
PROBLEMY, BŁĘDY
• ANALITYKA OPARTA NA HADOOPIE
• Problemy z Flume
• Co z real time? Storm?
• Czy to najlepsze miejsce do trzymania eventów?
• BRAK PORZĄDNEGO KLASTRA
• raporty za dłuższe okresy generują się wiele godzin
• Dane muszą być mocno skompresowane
• FORMAT DANYCH MA ZNACZENIE
• Serde
• Kompresja
• Format danych – kolumnowy?
10. 10
PLANY
• FINGERPRINTING
• User agent to za mało
• Biometria
• Lokalizacja
• REAL TIME
• Storm, Kafka, HBASE
• Scoring bezpieczeństwa danej sesji
• Sprzężenie zwrotne
• MOBILE I INNE APLIKACJE