ZASTOSOWANIE TECHNOLOGII DATA MINING W WALCE Z PRZESTĘPSTWAMI FINANSOWYMI
1.
2. Plan wystąpienia
• Charakterystyka technologii data mining
• Praktyczne zastosowania data mining
O czym nie będę mówił
• Szczegółowa charakterystyka technik
• Związki ze statystyką
• Prezentacja wyników badań wśród analityków kryminalnych
policji, CBA i SG, biologów z BBK ABW oraz praktyków z SIIS i
naukowców z WAT
2
3. • Proces eksploracji dużych ilości danych w celu odkrycia
znaczących wzorców i reguł (M.J.A. Berry i G. Linoff, 1997)
» kluczem do zrozumienia definicji oraz elementem odróżniających
data mining od innych technik jest zdolność do ujawniania
wzorców i reguł, które są istotne z punktu widzenia podmiotu
zainteresowanego wynikami analiz
• Aktywność polegająca na ekstrakcji informacji, której to celem
jest ujawnienie ukrytych faktów znajdujących się w bazach
danych (Two Crows Corporation, 1999)
– wykorzystuje ona kombinację technologii uczenia maszynowego, analiz
statystycznych, technik modelowania oraz technologii bazodanowych,
– data mining odnajduje wzory i ledwo dostrzegalne relacje w danych
oraz wyprowadza zasady, na podstawie których można prognozować
przyszłe wyniki
3
4. • Same analizy mogą dotyczyć następujących parametrów:
– powiązania – wzór, w którym jedno zdarzenie jest powiązane z innym, np. zakup
długopisu jest związany z zakupem papieru;
– analiza sekwencji lub ścieżek – wzór, w którym jedno zdarzenie prowadzi do
następnego, np. zakup pieluch jest następczy względem urodzin dziecka;
– klasyfikacje – przyporządkowanie zdarzeń do zbiorów;
– klasteryzacje – łączenie w grupy, klastry zdarzeń najbardziej do siebie podobnych,
bliskich, np. miejsce położenia, nastawienie klientów do produktów, marek;
– prognozowania – ujawnianie wzorów, za pomocą których można w sposób uzasadniony
przewidywać przyszłe zdarzenia, np. osoba która zapisała się do siłowni zacznie kupować
suplementy diety.
• Natomiast cel data mining może przyjąć trzy postacie:
– deskryptywny/poglądowy: uzyskanie zrozumiałego opis interesujących segmentów lub
grup danych,
– predykcja/przewidywanie: odkryte wzorce lub reguły są wykorzystywane do
przewidywania sytuacji poza bazą danych, np. nowych danych,
– interwencyjny: odkryte wzorce lub reguły mogą prowadzić do aktywnej interwencji w
modelowanym systemie – w tym zakresie data mining służy wspieraniu systemu
podejmowania decyzji w danej organizacji.
4
5. • Zarządzanie relacjami z klientami – (Customer
Relationship Management - CRM)
– Profilowanie klientów przez przedsiębiorców (np.
klasteryzacja, klasyfikacja i predykcja)
– Kierowanie ofert handlowych
5
6. • Zastosowanie w walce z przestępstwami
finansowymi
– Profilowanie klientów (wg ryzyka, PEP)
– Wyszukiwanie znanych wzorców np. oszustw, prania
pieniędzy (modele eksperckie)
– Typowanie transakcji podejrzanych (wg kryteriów
ustawowych) w ramach walki z praniem pieniędzy
• Po stronie instytucji finansowych i organów
ścigania (operacyjna i strategiczna analiza
kryminalna) 6
7. • Szacowanie ryzyka (prewencja) – ocena ryzyka spłaty
kredytu (lub pożyczki) przez klienta.
– Dysponując historiami zachowań swoich klientów i porównując te
dane z np. nowym klientem, który ubiega się o kredyt, to są one w
stanie oszacowań ryzyko, że jest (lub nie) zdolny do jego spłaty.
– Bierze się pod uwagę nie tylko dochody klienta, ale także to w jaki
sposób posługuje się kartą kredytową, z jakich wcześniej usług
korzystał i z jakim skutkiem, czy spłacał wcześniej zaciągnięte
zobowiązania, czy robił to terminowo, w jakim sektorze
gospodarki pracuje, ile zarabia, ile ma lat, ile osób na utrzymaniu.
– Dlatego to tak powszechnie stosuje się modele scoringowe w
sektorze finansowym (np. scoring kredytowy, fraudowy, zysku,
windykacyjny). 7
8. • Wykrywanie oszustw i anomalii (Compliance Monitoring for
Anomaly Detection – CMAD) – data mining może pozwolić na
znalezienie czynników, okoliczności, które mogą prowadzić do
nadużyć lub strat w instytucjach finansowych.
– System posiada pewne zdefiniowane uprzednio warunki
korzystania z określonych usług (np. zachowania zgodne i
niezgodne z dotychczasowym profilem).
– Jeżeli w trakcie monitorowania zachowań osób korzystających z
usługi pojawi się odstępstwo (anomalia), to wtedy generowany
jest raport (często nazywa się to tzw. czerwoną flagą – red flag).
– Stosuje się to monitorowania posługiwania się kartami
kredytowymi w celu ujawniania nadużyć lub wręcz oszustw, gdy
informacja z karty została skopiowana i wykorzystana do
stworzenia jej kopii. 8
9. • Wykrywanie intruzów (Intrusion Detection System –
IDS) – czyli ujawnianie osób lub komputerów, które w
sieci wewnętrznej (tzw. intranetu) lub spoza niej (np. z
Internetu) podejmują czynności, do których nie są
uprawnieni.
– Mogą one polegać na nieautoryzowanym wejściu do
systemu, konfigurowaniu systemu przez nieuprawniony
podmiot, zmianie, dodaniu lub usunięciu pliku lub plików.
• Systemy też działają w mniejszej skali np. jednego
komputera. Wtedy to wykrywane jest szkodliwe
oprogramowanie, wirusy, konie trojańskie, lub tzw.
tylne drzwi. 9