Tecniche di Data Mining a supporto del fraud management

>> La sintesi contenuta in questo articolo deriva dal lavoro che
l’autore ha svolto durante la preparazione del seminario sul data-
mining ed il fraud management tenutosi a Roma nell’auditorio di
Telecom Italia il 13 Settembre 2011, grazie ad una lodevole iniziativa
di Stefano Maria De’ Rossi cui vanno i ringraziamenti dell’autore.
Ulteriori approfondimenti sul tema del fraud management sono
consultabili sui numeri 2, 3, 4 della rivista Information Security
Le tecniche di Data Mining a
supporto del fraud management
Marco Scattareggia, laureato in Ingegneria Elettronica, lavora
a Roma presso la Hewlett-Packard Italiana dove dirige il Center of
Excellence di HP EMEA dedicato alla progettazione e realizzazione di
soluzioni di fraud management per gli operatori di telecomunicazioni.
Qualora l’articolo sia stato di interesse per il lettore, è possibile inviare
richieste di chiarimento e valutazioni di merito all’indirizzo e-mail
marco.scattareggia@hp.com.
Information Security - n. 7 nov/dic 2011 scenari 53
RAGIONAMENTO INDUTTIVO, DATA MINING E FRAUD
MANAGEMENT
Il data-mining, ovvero lo scavare nei dati alla ricerca dell’oro della cono-
scenza, consiste nella combinazione di più discipline tra cui la statistica in-
ferenziale, la gestione informatica delle basi di dati e il machine learning.
Quest’ultimo è lo studio dell’autoapprendimento robotico nell’ambito della
ricerca sull’intelligenza artificiale e per data-mining si intende l’estrarre della
conoscenza da una grande massa di dati al fine di acquisire le regole che
diano supporto alle decisioni e che determinino le eventuali azioni da in-
traprendere. Nella lingua inglese questo concetto si esprime efficacemente
con il termine Actionable Insight.
Il data-mining copre un ampio campo di attività di analisi e in questo arti-
colo si vogliono evidenziare i benefici che i processi di business, come il
fraud management, possono in particolare trarre dalle tecniche previsionali.
Queste ultime, note come Predictive Analytics, si compongono di tre ele-
menti:
1. Grandi quantità di dati da analizzare e sufficienti a fornire dei campioni
rappresentativi per l’addestramento, la verifica e la validazione dei mo-
delli predittivi;

2. Tecniche di analisi per la comprensione dei dati, delle
loro strutture e del loro significato;
3. Modelli previsionali articolabili, come ogni processo
informatico, in termini di “input, process e output”;
ovvero in parametri predittori, in algoritmi di calcolo e
in obiettivi e risultati della previsione.
In aggiunta alle tecniche di analisi sono anche necessari
adeguati strumenti e metodi per il caricamento, la
trasformazione e la normalizzazione dei dati. Tali attività
preliminari sono evidenziate nelle prime fasi del
paradigma KDD (Knowledge Discovery in Databases) e
sono generalmente presenti nei prodotti noti come ETL
(Extract, Transform, Load). Se si visita il sito
www.kdd.org, si può capire come il data-mining possa
consistere effettivamente nella fase di analisi del
processo interattivo per l’estrazione della conoscenza dai
dati illustrato in Figura 1.
Essendo però interessati alle applicazioni pratiche del
data-mining in un contesto industriale, è utile esaminare
anche la Figura 2 dove è riportata l’evoluzione delle
tecniche di business analytics. Si inizia con la semplice
attività di reporting, che fornisce una sintesi grafica dei
dati aggregati secondo le diverse dimensioni di interesse
ed evidenzia così le principali differenze e gli elementi di
maggiore interesse. La successiva fase di analysis
corrisponde all’attività di studio dei dati per capire
“perché” è avvenuto un determinato fenomeno.
Successivamente il monitoring corrisponde all’utilizzo di
strumenti che permettono di controllare cosa sta
succedendo ed, infine, il predictive analytics permette di
stabilire cosa potrebbe o dovrebbe accadere in futuro.
Ovviamente, va subito precisato che il futuro può essere
predetto solo in termini probabilistici e non ci sarà la
certezza del cento per cento su cosa accadrà veramente.
In pratica viene fornito un ordinamento (ranking) su
scala probabilistica dei possibili eventi in base
all’esperienza precedentemente accumulata. Tale
ordinamento, noto come attività di scoring, permette di
assegnare in termini percentuali un valore, lo score, il
quale esprime la confidenza che abbiamo nella
previsione stessa. Il livello di confidenza raggiunto ci
permette di eseguire l’azione più consona alla previsione
effettuata; ad esempio nel fraud management uno score
elevato, corrispondente ad un elevato rischio di frode, e
può determinare il blocco automatico dell’erogazione del
servizio (il prestito finanziario da parte di una banca, la
linea telefonica di un operatore, la copertura
assicurativa, ecc.), mentre uno score più moderato
potrebbe richiedere solo un supplemento di indagine da
parte dell’analista.
Questo articolo vuole mostrare come le applicazioni di
fraud management, inteso come processo di business,
possano trarre evidenti benefici dalle tecniche di data-
mining e dall’uso pratico dei modelli predittivi.
È interessante evidenziare che le tecniche di business
analytics derivano dalla statistica inferenziale e più
precisamente dal ragionamento probabilistico di Bayes,
ovvero dal porsi il problema di stabilire quali cause
hanno determinato l’effetto che è stato osservato. Il
teorema di Bayes sulla probabilità condizionata (teorema
per la probabilità delle cause) risponde alla domanda:
“Sapendo che si è verificato l’effetto B, qual è la
probabilità che la causa sia A?”. In breve fornisce la
probabilità della causa dato l’effetto.
Ad esempio sul numero 4 di Information Security,
pubblicato a Maggio/Giugno 2011, nell’articolo “Come
realizzare un Modello Predittivo” è stato
mostrato il modo di calcolare la
probabilità di acquisto che un impiegato
esperto assegna ad ogni avventore in
base al genere della persona, uomo o
donna, ed in base al fatto che la
persona sia vestita in modo più o meno
ricercato. Si può ora constatare che,
durante la costruzione del modello
predittivo “l’effetto” (acquisto positivo o
acquisto negativo) è noto, mentre è “la
causa” ad essere oggetto di studio e
richiedere una valutazione
probabilistica. In tale fase di analisi i
54 scenari Information Security - n. 7 nov/dic 2011
Figura 1

ruoli sono invertiti: dato l’effetto si cerca la causa. Nella
successiva fase esecutiva i ruoli di causa ed effetto
riprendono la loro sequenza naturale: data la causa si
prevede l’effetto che ne deriva.
In altre parole, nel modello previsionale, il sesso si
comporta da “predittore”, mentre l’acquisto, nel suo
attributo di positivo o negativo, diventa “l’oggetto”
(Target) da indovinare.
La fase di analisi, durante la quale i ruoli “causa ed
effetto” sono invertiti, è indicata nelle tecniche di
Predictive Analytics come “addestramento” (training) del
modello.
Di seguito, in Figura 3, è riportata la tabella di
contingenza con dei valori esemplificativi delle probabilità
da utilizzare nel teorema di Bayes per calcolare la
probabilità di acquisto per un uomo o una donna. In
altre parole, si vuole prevedere la probabilità di acquisto
(“effetto”) conoscendo il sesso dell’avventore
(“causa”). È come dire che avendo analizzato
la storia degli acquisti diversificati sulla base
del genere delle persone ed avendo potuto
calcolare la probabilità della causa (“sesso”)
condizionata da un specifico effetto
(“acquisto”), si può utilizzare un modello
previsionale basato sul teorema di Bayes per
prevedere la probabilità di un futuro acquisto
una volta che si disponga del sesso della
persona.
Il teorema delle probabilità delle cause di
Thomas Bayes è ampiamente impiegato per
prevedere quali cause hanno maggiore
probabilità di aver scatenato l’evento
osservato. Tuttavia è stato Pierre-Simon Laplace a
consolidare, nel suo “Essai philosophique sur les
probabilités (1814)”, il sistema logico che è alla base del
ragionamento induttivo e che oggi indichiamo come
ragionamento bayesiano.
La formula che emerge dal sistema di Laplace è la
“regola delle successioni”. Supposto che gli esiti di un
fenomeno siano solo due, “successo” e “fallimento” e
supposto che “a priori” si sappia poco o nulla di come
venga determinato l’esito dei risultati, Laplace derivò il
modo per calcolare la probabilità che il successivo esito
sia un successo:
P = (s+1)/(n+2)
dove “s” è il numero successi precedentemente osservati
e “n” il numero totale dei casi noti. Laplace si spinse ad
utilizzare la sua regola delle successioni per calcolare la
probabilità del sorgere del sole ad ogni nuovo giorno,
basandosi sul fatto che fino ad oggi tale evento non sia
mai fallito. Ovviamente fu fortemente criticato dai suoi
contemporanei per questa sua irreverente
estrapolazione.
L’obiettivo della statistica inferenziale è fornire i metodi
che servono ad imparare dall’esperienza, cioè a costruire
modelli per passare da casi particolari al caso generale.
Ma la regola delle successioni di Laplace, come anche
tutto il sistema del ragionamento induttivo Bayesiano,
può portare a dei clamorosi errori.
Le insidie insite nei ragionamenti sulle probabilità sono
messe in evidenza dai cosiddetti paradossi che pongono
domande le cui giuste risposte appaiono fortemente
illogiche. Il filosofo Bertrand Russell mise, ad esempio, in
evidenza che cadendo dal tetto di un palazzo di venti
Figura 2
Figura 3

piani quando si è arrivati all’altezza del primo piano si
potrebbe erroneamente dedurre con la regola delle
successioni di Laplace che, non essendo successo nulla
di male durante la caduta per ben 19 dei 20 piani, non ci
sia alcun pericolo anche nel ventesimo tratto di caduta.
Russell concluse pragmaticamente che il ragionamento
induttivo non deve solo portare ad una maggiore
probabilità, ma anche essere “ragionevolmente
credibile”.
Un ulteriore esempio spesso utilizzato per dimostrare i
limiti del procedimento logico induttivo è il “paradosso
dei corvi neri” sviluppato negli anni ’40 da Carl Gustav
Hempel. Esaminando, ad uno ad uno, un milione di
corvi, notiamo che sono tutti neri. Dopo ogni
osservazione, perciò, la teoria che tutti i corvi siano neri
diviene sempre più probabilmente vera, coerentemente
col principio induttivo. Ma l’assunto “i corvi sono tutti
neri”, se isolato, è logicamente equivalente all’assunto
“tutte le cose che non sono nere, non sono corvi”.
Questo secondo enunciato diventerebbe più
probabilmente vero anche in seguito all’osservazione di
una “mela rossa”: osserveremmo, infatti, una cosa “non
nera” che “non è un corvo”. Ma l’osservazione
di una mela rossa, se presa per rendere più
vero l’assunto secondo cui tutti i corvi sono
neri, non è consistente e non è
ragionevolmente credibile. Bertrand Russell
argomenterebbe che se la popolazione di corvi
nel mondo comprende in totale “un milione più
uno” esemplari, allora la deduzione “i corvi
sono tutti neri” è da ritenere ragionevolmente
giusta, ma se invece si dovesse stimare
l’esistenza di “cento milioni” di corvi allora il
campione di un solo milione di corvi neri non
sarebbe più sufficiente.
È sulla base di questa “risposta di Russell” che
si fondano i presupposti per poter adottare
nella pratica le previsioni fornite dai modelli predittivi ed
utilizzarle per prendere le decisioni di business.
Nello scegliere i campioni di dati per l’addestramento, il
test e la validazione di un modello predittivo, occorre
formulare due domande fondamentali:
a) Le regole che costituiscono l’algoritmo del modello
sono consistenti con le caratteristiche delle entità
individuali che compongono il campione?
b) I dati del campione sono rappresentativi dell’universo
della popolazione di soggetti che si vuole sottoporre
alle previsioni?
Le risposte a queste due domande derivano
rispettivamente dai concetti di validità interna e di
validità esterna di uno studio statistico inferenziale come
indicato nella Figura 5. La validità interna misura quanto
i risultati del modello e dell’analisi effettuata sono corretti
per il campione delle entità che sono state studiate e
può venire compromessa dalla variazione non
perfettamente casuale dei dati che agisce come rumore
ed elemento di disturbo (bias). La validità interna
rappresenta una condizione necessaria ma non
sufficiente perché un modello sia utilizzabile e si deve
verificare anche la validità esterna e cioè il grado di
generalizzazione acquisita dal modello predittivo.
Quando il modello non ha prodotto delle regole che
abbiano generalizzato a sufficienza è probabile che
durante la fase di training abbia semplicemente
“memorizzato” (overfitting) la maggior parte dei dati
presenti nel campione utilizzato per il suo
addestramento, ma non abbia efficacemente imparato
dai dati ovvero estratto la conoscenza custodita nei dati
stessi. In questa situazione il modello non sarà in grado
Figura 4
Figura 5

di processare con successo i casi presenti nei campioni di
test e di validazione. Ciò supponendo che i dati presenti
nei campioni di test e validazione siano correttamente
separati e non sovrapponibili a quelli del campione di
training; si noti come sia preferibile usare un terzo set di
dati, in aggiunta al normale campione di test, con cui
validare ulteriormente la generalizzazione del modello
rispetto sia ai dati contenuti nel campione di
addestramento sia in quello di test.
Le tecniche di predictive analytics aiutano a prendere
decisioni una volta che sono stati classificati e
caratterizzati i dati di un certo fenomeno. Altre tecniche,
come l’OLAP (On-Line Analytical Processing), aiutano
comunque a prendere decisioni perché permettono di
vedere cosa sia successo. Tuttavia un modello predittivo
fornisce direttamente la previsione di un fenomeno, ne
stima la dimensione e quindi si presta ad azionare degli
automatismi.
Un’ulteriore possibilità resa disponibile dall’utilizzo delle
tecniche di predictive analytics è la separazione e la
classificazione degli elementi appartenenti ad un insieme
non omogeneo. L’esempio più comune per questo tipo di
applicazione è quello dei clienti da indirizzare in
un’azione di marketing per decidere a chi mandare una
proposta commerciale con la ragionevole probabilità di
ottenere una risposta positiva e, a ragione, in questi casi
si può parlare di business intelligence. Tale tecnica, nota
come “clustering”, è utile anche nel Fraud Management
perché permette di rendere più mirata l’azione dei
modelli predittivi; infatti è possibile, sin dalla fase di
addestramento del modello, suddividere la massa dei
dati in sottoinsiemi omogenei e rendere quindi il
comportamento attuato negli schemi di frode più
facilmente prevedibile. Peraltro, l’individuazione di
sottoinsiemi con parametri particolarmente distanti dai
valori medi, detti out-layer, porta direttamente
all’individuazione di casi che hanno una forte probabilità
di frode e che quindi richiedono un’investigazione più
approfondita.
IL DILEMMA DEL FRAUD MANAGER
Il desiderio di ogni organizzazione, che sia consapevole
delle perdite di ricavi dovute alle frodi, è ovviamente
quello di azzerare tali perdite. Purtroppo ciò non è
possibile a causa sia di problemi intrinsecamente
connessi con il fenomeno frodatorio, legati
principalmente alla rapida reazione delle organizzazioni
criminali che ne traggono profitto e che trovano
rapidamente nuovi schemi di attacco e nuove debolezze
nei sistemi di difesa, sia perché anche il contrasto delle
frodi ha un costo che cresce proporzionalmente al livello
di difesa messo in atto. La Figura 6 mostra graficamente
che, senza sistemi di contrasto, le perdite per frodi
possono raggiungere livelli molto elevati, dell’ordine di
oltre il 30% dei ricavi totali, e potrebbero anche mettere
a rischio la sopravvivenza stessa dell’azienda. Attivando
un’adeguata organizzazione di fraud management,
fornendosi cioè di un responsabile e di una squadra di
controllo dotata di un’opportuna infrastruttura
tecnologica, le perdite scendono immediatamente a livelli
accettabili dell’ordine di poche cifre percentuali. Tuttavia,
nel tentativo di azzerare completamente le frodi si
possono introdurre facilmente dei costi così elevati, in
termini di personale e di strumenti, da superare
l’ulteriore riduzione delle perdite.
La competenza del fraud manager deve permettere di
individuare il punto ottimale di compromesso tra i costi
della sua struttura e le perdite dovute alle frodi residue,
indicato con il colore rosso nella Figura 6. La maggiore
difficoltà però non sta nel riuscire a dimostrare alla
propria linea di management quanto valgano le frodi
residue, ma nello stimare le perdite già evitate con
l’attività precedentemente eseguita dalla propria squadra
di analisti. In altre parole non è assolutamente facile
valutare la dimensione e le conseguenze delle frodi che
“non” sono state messe in atto.
Per approfondire questo tema e capire come calcolare il
ROI di un FMS, si può far riferimento all’articolo “Ritorno
sull’Investimento di un FMS” pubblicato a marzo/aprile
Figura 6

sul numero 3 di Information Security. Tecnicamente è
necessario scegliere degli adeguati KPI (Key
Performance Indicator) e misurare sia il valore delle frodi
individuate in un determinato periodo sia di quelle
residue nello stesso periodo.
Nella Figura 7 sono rappresentati gli andamenti dei KPI
noti come precision (percentuale delle frodi accertate sul
totale di frodi analizzate) e recall (percentuale di frodi
individuate sul totale di frodi esistenti). Desiderando
raggiungere il punto ideale per il quale si avrebbero
contemporaneamente una precision ed una recall del
100%, si possono fare vari tentativi per migliorare l’uno
o l’altro KPI. Ad esempio si può aumentare il numero di
casi di sospetta frode analizzati giornalmente (aumento
di recall), a cui però corrisponde un maggior numero di
ore di lavoro degli analisti. Viceversa, si può pensare di
configurare con maggiore precisione l’FMS per diminuire
il numero di casi da analizzare e allo stesso tempo
eliminare i falsi allarmi che consumano inutilmente il
tempo degli analisti.
Nella pratica si dimostra però che, se non si aumenta il
contenuto informativo in termini di regole per gli
strumenti di analisi, chiavi di ricerca, ecc., all’aumentare
della precision si riduce contemporaneamente la
percentuale di recall e viceversa.
La problematica sin qui esposta corrisponde al dilemma
che affligge ogni fraud manager, esprimibile nel fatto che
non si possono migliorare i risultati della lotta alle frodi
senza aumentare contemporaneamente i
costi della relativa struttura, oppure senza
aumentare le informazioni messe a
disposizione. È quindi necessario andare
incontro ad almeno una di queste due
esigenze, costi o informazioni, e
possibilmente migliorarle entrambe.
I modelli predittivi si prestano a migliorare
l’efficacia e l’efficienza del reparto di fraud
management. Infatti, con le tecniche
induttive proprie degli alberi decisionali è
possibile estrarre dai dati nuove regole per
l’individuazione dei casi di frode e ciò
migliora l’efficacia del FMS. Inoltre, con le
tecniche di scoring diventa più semplice
organizzare le risorse umane disponibili sulla
base della priorità, ovvero del rischio
associato a ciascun caso di sospetta frode;
in tal modo si può migliorare l’efficienza del
lavoro ed è anche possibile abilitare meccanismi
automatici da utilizzare durante le ore notturne e in
assenza di personale.
Nella Figura 8 è tracciata in blu la curva di guadagno
(gain chart) ottenuto grazie ad un modello predittivo che
ha fornito un’elevata qualità di scoring. Il punto
evidenziato nella figura mostra infatti che dopo aver
esaminato solo il 20% dei casi, sono già state individuate
il 90% dei casi di vera frode risparmiando in modo
significativo il tempo degli analisti. Ciò in
contrapposizione ad un’analisi dei casi che segua un
ordine casuale quale quello indicato dalla diagonale
principale.
La linea rossa indica invece il percorso ideale, che è
Figura 7
Figura 8

praticamente irraggiungibile ma a cui è giusto tendere,
secondo il quale tutti casi di vera frode sono esaminati
per primi senza aver perso tempo ad esaminare anche
un solo falso allarme. È interessante notare come questa
situazione ideale corrisponda ad avere entrambi i KPI
precision e recall uguali al 100% e quindi ad un modello
che abbia raggiunto il punto ideale evidenziato in Figura
7.
Per un’analisi completa sulla valutazione di un modello
predittivo si può fare riferimento all’articolo “Valutazione
delle capacità predittive di un FMS” pubblicato a
febbraio/marzo sul numero 2 di Information Security.
REALIZZAZIONE DI UN MODELLO PER LO
SCORING DEI CASI DI FRODE NELLE
TELECOMUNICAZIONI
Nella Figura 9 è rappresentato lo schema concettuale di
un modello predittivo per lo scoring dei casi di frode in
un’azienda di telecomunicazioni. In tale rappresentazione
l’algoritmo che costituisce il nucleo del modello è
rappresentato da una “rete neurale”, ma lo schema non
cambierebbe se si scegliesse un diverso algoritmo come,
ad esempio, un albero decisionale, una rete di Bayes, ecc.
Gli allarmi ed i casi generati dal FMS derivano da
aggregazioni o da altre elaborazioni delle informazioni
contenute nei dati provenienti dall’esterno ed in
particolare in quelli del traffico. Quindi, se la
configurazione del FMS e le sue regole sono ben curate,
si può supporre che le informazioni provenienti dal
traffico siano già rappresentate, nell’ambito del
fenomeno frodatori, dagli allarmi e dai casi. In generale,
tutti i dati di input possono essere trasformati e sostituiti
con altri parametri derivati.
Tutti i parametri di input, sia quelli originali sia quelli
derivati tramite FMS oppure derivati da trasformazioni
realizzate all’interno del modello predittivo, concorrono in
una sorta di gara per essere eletti a predittori del
modello, cioè ad input direttamente in ingresso al nucleo
algoritmico del modello previsionale che è evidenziato
nel riquadro in blu scuro della figura.
L’output del modello predittivo è semplicemente il valore
di score associato al caso in esame. Tale valore esprime
una percentuale e quindi varia tra zero e cento, ovvero
tra zero ed uno, ed esprime la probabilità che il caso sia
una vera frode, quando lo score è 100, oppure un falso
allarme se lo score è prossimo allo zero.
L’inserimento di un modello predittivo nel contesto
operativo dell’azienda ha un impatto significativo sulla
struttura esistente di IT e la sua integrazione può
richiedere molti mesi di lavoro per lo sviluppo di software
e di processi personalizzati. Tuttavia, recentemente lo
sviluppo di Internet e dei web services, ovvero gli
emergenti paradigmi del cloud computing e della vendita
di soluzioni in modalità SaaS, ha aperto la strada ad un
più facile passaggio in produzione dei modelli predittivo.
La comunità di data-mining, rappresentata nel Data
Mining Group (DMG), ha sviluppato recentemente un
nuovo linguaggio, il PMML (Predictive Model Markup
Language) che è destinato a diventare la “lingua franca”,
parlata da molti fornitori e sistemi concorrenti, per la
definizione ed utilizzo pratico di un modello predittivo.
Il PMML, che è basato sullo standard XML, fornisce tutti i
metodi e gli strumenti per definire, verificare e poi
mettere in pratica i modelli predittivi. Ciò senza che il
modello sia necessariamente sviluppato ed eseguito da
prodotti software dello stesso fornitore. Tutte le
definizioni e le descrizioni necessarie per comprendere il
PMML sono disponibili sul sito del DMG
http://www.dmg.org/.
In conclusione il PMML, essendo standard e open, se
combinato con un’offerta di cloud computing può
abbassare drasticamente il TCO (Total Cost of
Ownership) abbattendo le barriere di incompatibilità tra i
diversi sistemi dell’infrastruttura informatica già operativi
nell’azienda. Per di più, l’inserimento del modello nel
contesto operativo delle applicazioni può essere curato
direttamente dalle stesse persone che lo hanno
sviluppato, senza cioè coinvolgere pesantemente i tecnici
del reparto di IT.
Per un approfondimento sulla realizzazione dei modelli
predittivi si rimanda all’articolo “Come realizzare un
Modello Predittivo” pubblicato a maggio/giugno sul
numero 4 di Information Security.
Figura 9

Tecniche di Data Mining a supporto del fraud management

Recommended

Recommended

More Related Content

Similar to Tecniche di Data Mining a supporto del fraud management

Similar to Tecniche di Data Mining a supporto del fraud management (19)

More from Stefano Maria De' Rossi

More from Stefano Maria De' Rossi (20)

Tecniche di Data Mining a supporto del fraud management