SlideShare a Scribd company logo
>> La sintesi contenuta in questo articolo deriva dal lavoro che
l’autore ha svolto durante la preparazione del seminario sul data-
mining ed il fraud management tenutosi a Roma nell’auditorio di
Telecom Italia il 13 Settembre 2011, grazie ad una lodevole iniziativa
di Stefano Maria De’ Rossi cui vanno i ringraziamenti dell’autore.
Ulteriori approfondimenti sul tema del fraud management sono
consultabili sui numeri 2, 3, 4 della rivista Information Security
Le tecniche di Data Mining a
supporto del fraud management
Marco Scattareggia, laureato in Ingegneria Elettronica, lavora
a Roma presso la Hewlett-Packard Italiana dove dirige il Center of
Excellence di HP EMEA dedicato alla progettazione e realizzazione di
soluzioni di fraud management per gli operatori di telecomunicazioni.
Qualora l’articolo sia stato di interesse per il lettore, è possibile inviare
richieste di chiarimento e valutazioni di merito all’indirizzo e-mail
marco.scattareggia@hp.com.
Information Security - n. 7 nov/dic 2011 scenari 53
RAGIONAMENTO INDUTTIVO, DATA MINING E FRAUD
MANAGEMENT
Il data-mining, ovvero lo scavare nei dati alla ricerca dell’oro della cono-
scenza, consiste nella combinazione di più discipline tra cui la statistica in-
ferenziale, la gestione informatica delle basi di dati e il machine learning.
Quest’ultimo è lo studio dell’autoapprendimento robotico nell’ambito della
ricerca sull’intelligenza artificiale e per data-mining si intende l’estrarre della
conoscenza da una grande massa di dati al fine di acquisire le regole che
diano supporto alle decisioni e che determinino le eventuali azioni da in-
traprendere. Nella lingua inglese questo concetto si esprime efficacemente
con il termine Actionable Insight.
Il data-mining copre un ampio campo di attività di analisi e in questo arti-
colo si vogliono evidenziare i benefici che i processi di business, come il
fraud management, possono in particolare trarre dalle tecniche previsionali.
Queste ultime, note come Predictive Analytics, si compongono di tre ele-
menti:
1. Grandi quantità di dati da analizzare e sufficienti a fornire dei campioni
rappresentativi per l’addestramento, la verifica e la validazione dei mo-
delli predittivi;
2. Tecniche di analisi per la comprensione dei dati, delle
loro strutture e del loro significato;
3. Modelli previsionali articolabili, come ogni processo
informatico, in termini di “input, process e output”;
ovvero in parametri predittori, in algoritmi di calcolo e
in obiettivi e risultati della previsione.
In aggiunta alle tecniche di analisi sono anche necessari
adeguati strumenti e metodi per il caricamento, la
trasformazione e la normalizzazione dei dati. Tali attività
preliminari sono evidenziate nelle prime fasi del
paradigma KDD (Knowledge Discovery in Databases) e
sono generalmente presenti nei prodotti noti come ETL
(Extract, Transform, Load). Se si visita il sito
www.kdd.org, si può capire come il data-mining possa
consistere effettivamente nella fase di analisi del
processo interattivo per l’estrazione della conoscenza dai
dati illustrato in Figura 1.
Essendo però interessati alle applicazioni pratiche del
data-mining in un contesto industriale, è utile esaminare
anche la Figura 2 dove è riportata l’evoluzione delle
tecniche di business analytics. Si inizia con la semplice
attività di reporting, che fornisce una sintesi grafica dei
dati aggregati secondo le diverse dimensioni di interesse
ed evidenzia così le principali differenze e gli elementi di
maggiore interesse. La successiva fase di analysis
corrisponde all’attività di studio dei dati per capire
“perché” è avvenuto un determinato fenomeno.
Successivamente il monitoring corrisponde all’utilizzo di
strumenti che permettono di controllare cosa sta
succedendo ed, infine, il predictive analytics permette di
stabilire cosa potrebbe o dovrebbe accadere in futuro.
Ovviamente, va subito precisato che il futuro può essere
predetto solo in termini probabilistici e non ci sarà la
certezza del cento per cento su cosa accadrà veramente.
In pratica viene fornito un ordinamento (ranking) su
scala probabilistica dei possibili eventi in base
all’esperienza precedentemente accumulata. Tale
ordinamento, noto come attività di scoring, permette di
assegnare in termini percentuali un valore, lo score, il
quale esprime la confidenza che abbiamo nella
previsione stessa. Il livello di confidenza raggiunto ci
permette di eseguire l’azione più consona alla previsione
effettuata; ad esempio nel fraud management uno score
elevato, corrispondente ad un elevato rischio di frode, e
può determinare il blocco automatico dell’erogazione del
servizio (il prestito finanziario da parte di una banca, la
linea telefonica di un operatore, la copertura
assicurativa, ecc.), mentre uno score più moderato
potrebbe richiedere solo un supplemento di indagine da
parte dell’analista.
Questo articolo vuole mostrare come le applicazioni di
fraud management, inteso come processo di business,
possano trarre evidenti benefici dalle tecniche di data-
mining e dall’uso pratico dei modelli predittivi.
È interessante evidenziare che le tecniche di business
analytics derivano dalla statistica inferenziale e più
precisamente dal ragionamento probabilistico di Bayes,
ovvero dal porsi il problema di stabilire quali cause
hanno determinato l’effetto che è stato osservato. Il
teorema di Bayes sulla probabilità condizionata (teorema
per la probabilità delle cause) risponde alla domanda:
“Sapendo che si è verificato l’effetto B, qual è la
probabilità che la causa sia A?”. In breve fornisce la
probabilità della causa dato l’effetto.
Ad esempio sul numero 4 di Information Security,
pubblicato a Maggio/Giugno 2011, nell’articolo “Come
realizzare un Modello Predittivo” è stato
mostrato il modo di calcolare la
probabilità di acquisto che un impiegato
esperto assegna ad ogni avventore in
base al genere della persona, uomo o
donna, ed in base al fatto che la
persona sia vestita in modo più o meno
ricercato. Si può ora constatare che,
durante la costruzione del modello
predittivo “l’effetto” (acquisto positivo o
acquisto negativo) è noto, mentre è “la
causa” ad essere oggetto di studio e
richiedere una valutazione
probabilistica. In tale fase di analisi i
54 scenari Information Security - n. 7 nov/dic 2011
Figura 1
ruoli sono invertiti: dato l’effetto si cerca la causa. Nella
successiva fase esecutiva i ruoli di causa ed effetto
riprendono la loro sequenza naturale: data la causa si
prevede l’effetto che ne deriva.
In altre parole, nel modello previsionale, il sesso si
comporta da “predittore”, mentre l’acquisto, nel suo
attributo di positivo o negativo, diventa “l’oggetto”
(Target) da indovinare.
La fase di analisi, durante la quale i ruoli “causa ed
effetto” sono invertiti, è indicata nelle tecniche di
Predictive Analytics come “addestramento” (training) del
modello.
Di seguito, in Figura 3, è riportata la tabella di
contingenza con dei valori esemplificativi delle probabilità
da utilizzare nel teorema di Bayes per calcolare la
probabilità di acquisto per un uomo o una donna. In
altre parole, si vuole prevedere la probabilità di acquisto
(“effetto”) conoscendo il sesso dell’avventore
(“causa”). È come dire che avendo analizzato
la storia degli acquisti diversificati sulla base
del genere delle persone ed avendo potuto
calcolare la probabilità della causa (“sesso”)
condizionata da un specifico effetto
(“acquisto”), si può utilizzare un modello
previsionale basato sul teorema di Bayes per
prevedere la probabilità di un futuro acquisto
una volta che si disponga del sesso della
persona.
Il teorema delle probabilità delle cause di
Thomas Bayes è ampiamente impiegato per
prevedere quali cause hanno maggiore
probabilità di aver scatenato l’evento
osservato. Tuttavia è stato Pierre-Simon Laplace a
consolidare, nel suo “Essai philosophique sur les
probabilités (1814)”, il sistema logico che è alla base del
ragionamento induttivo e che oggi indichiamo come
ragionamento bayesiano.
La formula che emerge dal sistema di Laplace è la
“regola delle successioni”. Supposto che gli esiti di un
fenomeno siano solo due, “successo” e “fallimento” e
supposto che “a priori” si sappia poco o nulla di come
venga determinato l’esito dei risultati, Laplace derivò il
modo per calcolare la probabilità che il successivo esito
sia un successo:
P = (s+1)/(n+2)
dove “s” è il numero successi precedentemente osservati
e “n” il numero totale dei casi noti. Laplace si spinse ad
utilizzare la sua regola delle successioni per calcolare la
probabilità del sorgere del sole ad ogni nuovo giorno,
basandosi sul fatto che fino ad oggi tale evento non sia
mai fallito. Ovviamente fu fortemente criticato dai suoi
contemporanei per questa sua irreverente
estrapolazione.
L’obiettivo della statistica inferenziale è fornire i metodi
che servono ad imparare dall’esperienza, cioè a costruire
modelli per passare da casi particolari al caso generale.
Ma la regola delle successioni di Laplace, come anche
tutto il sistema del ragionamento induttivo Bayesiano,
può portare a dei clamorosi errori.
Le insidie insite nei ragionamenti sulle probabilità sono
messe in evidenza dai cosiddetti paradossi che pongono
domande le cui giuste risposte appaiono fortemente
illogiche. Il filosofo Bertrand Russell mise, ad esempio, in
evidenza che cadendo dal tetto di un palazzo di venti
Information Security - n. 7 nov/dic 2011 scenari 55
Figura 2
Figura 3
piani quando si è arrivati all’altezza del primo piano si
potrebbe erroneamente dedurre con la regola delle
successioni di Laplace che, non essendo successo nulla
di male durante la caduta per ben 19 dei 20 piani, non ci
sia alcun pericolo anche nel ventesimo tratto di caduta.
Russell concluse pragmaticamente che il ragionamento
induttivo non deve solo portare ad una maggiore
probabilità, ma anche essere “ragionevolmente
credibile”.
Un ulteriore esempio spesso utilizzato per dimostrare i
limiti del procedimento logico induttivo è il “paradosso
dei corvi neri” sviluppato negli anni ’40 da Carl Gustav
Hempel. Esaminando, ad uno ad uno, un milione di
corvi, notiamo che sono tutti neri. Dopo ogni
osservazione, perciò, la teoria che tutti i corvi siano neri
diviene sempre più probabilmente vera, coerentemente
col principio induttivo. Ma l’assunto “i corvi sono tutti
neri”, se isolato, è logicamente equivalente all’assunto
“tutte le cose che non sono nere, non sono corvi”.
Questo secondo enunciato diventerebbe più
probabilmente vero anche in seguito all’osservazione di
una “mela rossa”: osserveremmo, infatti, una cosa “non
nera” che “non è un corvo”. Ma l’osservazione
di una mela rossa, se presa per rendere più
vero l’assunto secondo cui tutti i corvi sono
neri, non è consistente e non è
ragionevolmente credibile. Bertrand Russell
argomenterebbe che se la popolazione di corvi
nel mondo comprende in totale “un milione più
uno” esemplari, allora la deduzione “i corvi
sono tutti neri” è da ritenere ragionevolmente
giusta, ma se invece si dovesse stimare
l’esistenza di “cento milioni” di corvi allora il
campione di un solo milione di corvi neri non
sarebbe più sufficiente.
È sulla base di questa “risposta di Russell” che
si fondano i presupposti per poter adottare
nella pratica le previsioni fornite dai modelli predittivi ed
utilizzarle per prendere le decisioni di business.
Nello scegliere i campioni di dati per l’addestramento, il
test e la validazione di un modello predittivo, occorre
formulare due domande fondamentali:
a) Le regole che costituiscono l’algoritmo del modello
sono consistenti con le caratteristiche delle entità
individuali che compongono il campione?
b) I dati del campione sono rappresentativi dell’universo
della popolazione di soggetti che si vuole sottoporre
alle previsioni?
Le risposte a queste due domande derivano
rispettivamente dai concetti di validità interna e di
validità esterna di uno studio statistico inferenziale come
indicato nella Figura 5. La validità interna misura quanto
i risultati del modello e dell’analisi effettuata sono corretti
per il campione delle entità che sono state studiate e
può venire compromessa dalla variazione non
perfettamente casuale dei dati che agisce come rumore
ed elemento di disturbo (bias). La validità interna
rappresenta una condizione necessaria ma non
sufficiente perché un modello sia utilizzabile e si deve
verificare anche la validità esterna e cioè il grado di
generalizzazione acquisita dal modello predittivo.
Quando il modello non ha prodotto delle regole che
abbiano generalizzato a sufficienza è probabile che
durante la fase di training abbia semplicemente
“memorizzato” (overfitting) la maggior parte dei dati
presenti nel campione utilizzato per il suo
addestramento, ma non abbia efficacemente imparato
dai dati ovvero estratto la conoscenza custodita nei dati
stessi. In questa situazione il modello non sarà in grado
Figura 4
56 scenari Information Security - n. 7 nov/dic 2011
Figura 5
di processare con successo i casi presenti nei campioni di
test e di validazione. Ciò supponendo che i dati presenti
nei campioni di test e validazione siano correttamente
separati e non sovrapponibili a quelli del campione di
training; si noti come sia preferibile usare un terzo set di
dati, in aggiunta al normale campione di test, con cui
validare ulteriormente la generalizzazione del modello
rispetto sia ai dati contenuti nel campione di
addestramento sia in quello di test.
Le tecniche di predictive analytics aiutano a prendere
decisioni una volta che sono stati classificati e
caratterizzati i dati di un certo fenomeno. Altre tecniche,
come l’OLAP (On-Line Analytical Processing), aiutano
comunque a prendere decisioni perché permettono di
vedere cosa sia successo. Tuttavia un modello predittivo
fornisce direttamente la previsione di un fenomeno, ne
stima la dimensione e quindi si presta ad azionare degli
automatismi.
Un’ulteriore possibilità resa disponibile dall’utilizzo delle
tecniche di predictive analytics è la separazione e la
classificazione degli elementi appartenenti ad un insieme
non omogeneo. L’esempio più comune per questo tipo di
applicazione è quello dei clienti da indirizzare in
un’azione di marketing per decidere a chi mandare una
proposta commerciale con la ragionevole probabilità di
ottenere una risposta positiva e, a ragione, in questi casi
si può parlare di business intelligence. Tale tecnica, nota
come “clustering”, è utile anche nel Fraud Management
perché permette di rendere più mirata l’azione dei
modelli predittivi; infatti è possibile, sin dalla fase di
addestramento del modello, suddividere la massa dei
dati in sottoinsiemi omogenei e rendere quindi il
comportamento attuato negli schemi di frode più
facilmente prevedibile. Peraltro, l’individuazione di
sottoinsiemi con parametri particolarmente distanti dai
valori medi, detti out-layer, porta direttamente
all’individuazione di casi che hanno una forte probabilità
di frode e che quindi richiedono un’investigazione più
approfondita.
IL DILEMMA DEL FRAUD MANAGER
Il desiderio di ogni organizzazione, che sia consapevole
delle perdite di ricavi dovute alle frodi, è ovviamente
quello di azzerare tali perdite. Purtroppo ciò non è
possibile a causa sia di problemi intrinsecamente
connessi con il fenomeno frodatorio, legati
principalmente alla rapida reazione delle organizzazioni
criminali che ne traggono profitto e che trovano
rapidamente nuovi schemi di attacco e nuove debolezze
nei sistemi di difesa, sia perché anche il contrasto delle
frodi ha un costo che cresce proporzionalmente al livello
di difesa messo in atto. La Figura 6 mostra graficamente
che, senza sistemi di contrasto, le perdite per frodi
possono raggiungere livelli molto elevati, dell’ordine di
oltre il 30% dei ricavi totali, e potrebbero anche mettere
a rischio la sopravvivenza stessa dell’azienda. Attivando
un’adeguata organizzazione di fraud management,
fornendosi cioè di un responsabile e di una squadra di
controllo dotata di un’opportuna infrastruttura
tecnologica, le perdite scendono immediatamente a livelli
accettabili dell’ordine di poche cifre percentuali. Tuttavia,
nel tentativo di azzerare completamente le frodi si
possono introdurre facilmente dei costi così elevati, in
termini di personale e di strumenti, da superare
l’ulteriore riduzione delle perdite.
La competenza del fraud manager deve permettere di
individuare il punto ottimale di compromesso tra i costi
della sua struttura e le perdite dovute alle frodi residue,
indicato con il colore rosso nella Figura 6. La maggiore
difficoltà però non sta nel riuscire a dimostrare alla
propria linea di management quanto valgano le frodi
residue, ma nello stimare le perdite già evitate con
l’attività precedentemente eseguita dalla propria squadra
di analisti. In altre parole non è assolutamente facile
valutare la dimensione e le conseguenze delle frodi che
“non” sono state messe in atto.
Per approfondire questo tema e capire come calcolare il
ROI di un FMS, si può far riferimento all’articolo “Ritorno
sull’Investimento di un FMS” pubblicato a marzo/aprile
Information Security - n. 7 nov/dic 2011 scenari 57
Figura 6
sul numero 3 di Information Security. Tecnicamente è
necessario scegliere degli adeguati KPI (Key
Performance Indicator) e misurare sia il valore delle frodi
individuate in un determinato periodo sia di quelle
residue nello stesso periodo.
Nella Figura 7 sono rappresentati gli andamenti dei KPI
noti come precision (percentuale delle frodi accertate sul
totale di frodi analizzate) e recall (percentuale di frodi
individuate sul totale di frodi esistenti). Desiderando
raggiungere il punto ideale per il quale si avrebbero
contemporaneamente una precision ed una recall del
100%, si possono fare vari tentativi per migliorare l’uno
o l’altro KPI. Ad esempio si può aumentare il numero di
casi di sospetta frode analizzati giornalmente (aumento
di recall), a cui però corrisponde un maggior numero di
ore di lavoro degli analisti. Viceversa, si può pensare di
configurare con maggiore precisione l’FMS per diminuire
il numero di casi da analizzare e allo stesso tempo
eliminare i falsi allarmi che consumano inutilmente il
tempo degli analisti.
Nella pratica si dimostra però che, se non si aumenta il
contenuto informativo in termini di regole per gli
strumenti di analisi, chiavi di ricerca, ecc., all’aumentare
della precision si riduce contemporaneamente la
percentuale di recall e viceversa.
La problematica sin qui esposta corrisponde al dilemma
che affligge ogni fraud manager, esprimibile nel fatto che
non si possono migliorare i risultati della lotta alle frodi
senza aumentare contemporaneamente i
costi della relativa struttura, oppure senza
aumentare le informazioni messe a
disposizione. È quindi necessario andare
incontro ad almeno una di queste due
esigenze, costi o informazioni, e
possibilmente migliorarle entrambe.
I modelli predittivi si prestano a migliorare
l’efficacia e l’efficienza del reparto di fraud
management. Infatti, con le tecniche
induttive proprie degli alberi decisionali è
possibile estrarre dai dati nuove regole per
l’individuazione dei casi di frode e ciò
migliora l’efficacia del FMS. Inoltre, con le
tecniche di scoring diventa più semplice
organizzare le risorse umane disponibili sulla
base della priorità, ovvero del rischio
associato a ciascun caso di sospetta frode;
in tal modo si può migliorare l’efficienza del
lavoro ed è anche possibile abilitare meccanismi
automatici da utilizzare durante le ore notturne e in
assenza di personale.
Nella Figura 8 è tracciata in blu la curva di guadagno
(gain chart) ottenuto grazie ad un modello predittivo che
ha fornito un’elevata qualità di scoring. Il punto
evidenziato nella figura mostra infatti che dopo aver
esaminato solo il 20% dei casi, sono già state individuate
il 90% dei casi di vera frode risparmiando in modo
significativo il tempo degli analisti. Ciò in
contrapposizione ad un’analisi dei casi che segua un
ordine casuale quale quello indicato dalla diagonale
principale.
La linea rossa indica invece il percorso ideale, che è
58 scenari Information Security - n. 7 nov/dic 2011
Figura 7
Figura 8
praticamente irraggiungibile ma a cui è giusto tendere,
secondo il quale tutti casi di vera frode sono esaminati
per primi senza aver perso tempo ad esaminare anche
un solo falso allarme. È interessante notare come questa
situazione ideale corrisponda ad avere entrambi i KPI
precision e recall uguali al 100% e quindi ad un modello
che abbia raggiunto il punto ideale evidenziato in Figura
7.
Per un’analisi completa sulla valutazione di un modello
predittivo si può fare riferimento all’articolo “Valutazione
delle capacità predittive di un FMS” pubblicato a
febbraio/marzo sul numero 2 di Information Security.
REALIZZAZIONE DI UN MODELLO PER LO
SCORING DEI CASI DI FRODE NELLE
TELECOMUNICAZIONI
Nella Figura 9 è rappresentato lo schema concettuale di
un modello predittivo per lo scoring dei casi di frode in
un’azienda di telecomunicazioni. In tale rappresentazione
l’algoritmo che costituisce il nucleo del modello è
rappresentato da una “rete neurale”, ma lo schema non
cambierebbe se si scegliesse un diverso algoritmo come,
ad esempio, un albero decisionale, una rete di Bayes, ecc.
Gli allarmi ed i casi generati dal FMS derivano da
aggregazioni o da altre elaborazioni delle informazioni
contenute nei dati provenienti dall’esterno ed in
particolare in quelli del traffico. Quindi, se la
configurazione del FMS e le sue regole sono ben curate,
si può supporre che le informazioni provenienti dal
traffico siano già rappresentate, nell’ambito del
fenomeno frodatori, dagli allarmi e dai casi. In generale,
tutti i dati di input possono essere trasformati e sostituiti
con altri parametri derivati.
Tutti i parametri di input, sia quelli originali sia quelli
derivati tramite FMS oppure derivati da trasformazioni
realizzate all’interno del modello predittivo, concorrono in
una sorta di gara per essere eletti a predittori del
modello, cioè ad input direttamente in ingresso al nucleo
algoritmico del modello previsionale che è evidenziato
nel riquadro in blu scuro della figura.
L’output del modello predittivo è semplicemente il valore
di score associato al caso in esame. Tale valore esprime
una percentuale e quindi varia tra zero e cento, ovvero
tra zero ed uno, ed esprime la probabilità che il caso sia
una vera frode, quando lo score è 100, oppure un falso
allarme se lo score è prossimo allo zero.
L’inserimento di un modello predittivo nel contesto
operativo dell’azienda ha un impatto significativo sulla
struttura esistente di IT e la sua integrazione può
richiedere molti mesi di lavoro per lo sviluppo di software
e di processi personalizzati. Tuttavia, recentemente lo
sviluppo di Internet e dei web services, ovvero gli
emergenti paradigmi del cloud computing e della vendita
di soluzioni in modalità SaaS, ha aperto la strada ad un
più facile passaggio in produzione dei modelli predittivo.
La comunità di data-mining, rappresentata nel Data
Mining Group (DMG), ha sviluppato recentemente un
nuovo linguaggio, il PMML (Predictive Model Markup
Language) che è destinato a diventare la “lingua franca”,
parlata da molti fornitori e sistemi concorrenti, per la
definizione ed utilizzo pratico di un modello predittivo.
Il PMML, che è basato sullo standard XML, fornisce tutti i
metodi e gli strumenti per definire, verificare e poi
mettere in pratica i modelli predittivi. Ciò senza che il
modello sia necessariamente sviluppato ed eseguito da
prodotti software dello stesso fornitore. Tutte le
definizioni e le descrizioni necessarie per comprendere il
PMML sono disponibili sul sito del DMG
http://www.dmg.org/.
In conclusione il PMML, essendo standard e open, se
combinato con un’offerta di cloud computing può
abbassare drasticamente il TCO (Total Cost of
Ownership) abbattendo le barriere di incompatibilità tra i
diversi sistemi dell’infrastruttura informatica già operativi
nell’azienda. Per di più, l’inserimento del modello nel
contesto operativo delle applicazioni può essere curato
direttamente dalle stesse persone che lo hanno
sviluppato, senza cioè coinvolgere pesantemente i tecnici
del reparto di IT.
Per un approfondimento sulla realizzazione dei modelli
predittivi si rimanda all’articolo “Come realizzare un
Modello Predittivo” pubblicato a maggio/giugno sul
numero 4 di Information Security.
Information Security - n. 7 nov/dic 2011 scenari 59
Figura 9

More Related Content

Similar to Tecniche di Data Mining a supporto del fraud management

Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligence
Andrea Mecchia
 
20220322_Modellizzazione_processi.pdf
20220322_Modellizzazione_processi.pdf20220322_Modellizzazione_processi.pdf
20220322_Modellizzazione_processi.pdf
Maurilio Savoldi
 
Security Summit Rome 2011
Security Summit Rome 2011Security Summit Rome 2011
Security Summit Rome 2011
Marco Morana
 
Maccaglia - Cybercrime un approccio tecnologico e sociologico
Maccaglia - Cybercrime un approccio tecnologico e sociologicoMaccaglia - Cybercrime un approccio tecnologico e sociologico
Maccaglia - Cybercrime un approccio tecnologico e sociologicoStefano Maccaglia
 
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Dataninja
 
Machine learning: a cosa servono
Machine learning:   a cosa servonoMachine learning:   a cosa servono
Machine learning: a cosa servono
Mario Gentili
 
introduzione al data mining
introduzione al data mining introduzione al data mining
introduzione al data mining
Stefano Maria De' Rossi
 
La capacità di fare previsioni: ecco la base dell’intelligenza artificiale
La capacità di fare previsioni: ecco la base dell’intelligenza artificialeLa capacità di fare previsioni: ecco la base dell’intelligenza artificiale
La capacità di fare previsioni: ecco la base dell’intelligenza artificiale
KEA s.r.l.
 
Social Intellignece e sentiment analysis
Social Intellignece e sentiment analysisSocial Intellignece e sentiment analysis
Social Intellignece e sentiment analysis
Francesco Catarinozzi
 
White Paper - L'analisi dei dati
White Paper - L'analisi dei datiWhite Paper - L'analisi dei dati
White Paper - L'analisi dei dati
Sogesi
 
Sviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activitySviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activity
Michele Palumbo
 
LE RAGIONI DELLA SICUREZZA IT
LE RAGIONI DELLA SICUREZZA ITLE RAGIONI DELLA SICUREZZA IT
LE RAGIONI DELLA SICUREZZA IT
Vincenzo Calabrò
 
Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019
Studiabo
 
4a Data Mining e motori computazionali
4a Data Mining e motori computazionali4a Data Mining e motori computazionali
4a Data Mining e motori computazionali
Mau-Messenger
 
UN APPROCCIO INTEGRATO ALLA SICUREZZA
UN APPROCCIO INTEGRATO ALLA SICUREZZAUN APPROCCIO INTEGRATO ALLA SICUREZZA
UN APPROCCIO INTEGRATO ALLA SICUREZZA
Vincenzo Calabrò
 
BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...
BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...
BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...
convegnonazionaleaiic
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
Studiabo
 
pdf intelligenza artificiale.pdf
pdf intelligenza artificiale.pdfpdf intelligenza artificiale.pdf
pdf intelligenza artificiale.pdf
MatteoCorba
 

Similar to Tecniche di Data Mining a supporto del fraud management (19)

Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligence
 
20220322_Modellizzazione_processi.pdf
20220322_Modellizzazione_processi.pdf20220322_Modellizzazione_processi.pdf
20220322_Modellizzazione_processi.pdf
 
Security Summit Rome 2011
Security Summit Rome 2011Security Summit Rome 2011
Security Summit Rome 2011
 
Maccaglia - Cybercrime un approccio tecnologico e sociologico
Maccaglia - Cybercrime un approccio tecnologico e sociologicoMaccaglia - Cybercrime un approccio tecnologico e sociologico
Maccaglia - Cybercrime un approccio tecnologico e sociologico
 
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
 
Machine learning: a cosa servono
Machine learning:   a cosa servonoMachine learning:   a cosa servono
Machine learning: a cosa servono
 
introduzione al data mining
introduzione al data mining introduzione al data mining
introduzione al data mining
 
La capacità di fare previsioni: ecco la base dell’intelligenza artificiale
La capacità di fare previsioni: ecco la base dell’intelligenza artificialeLa capacità di fare previsioni: ecco la base dell’intelligenza artificiale
La capacità di fare previsioni: ecco la base dell’intelligenza artificiale
 
159 prevenzione incidenti punto sicuro
159   prevenzione incidenti punto sicuro159   prevenzione incidenti punto sicuro
159 prevenzione incidenti punto sicuro
 
Social Intellignece e sentiment analysis
Social Intellignece e sentiment analysisSocial Intellignece e sentiment analysis
Social Intellignece e sentiment analysis
 
White Paper - L'analisi dei dati
White Paper - L'analisi dei datiWhite Paper - L'analisi dei dati
White Paper - L'analisi dei dati
 
Sviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activitySviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activity
 
LE RAGIONI DELLA SICUREZZA IT
LE RAGIONI DELLA SICUREZZA ITLE RAGIONI DELLA SICUREZZA IT
LE RAGIONI DELLA SICUREZZA IT
 
Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019
 
4a Data Mining e motori computazionali
4a Data Mining e motori computazionali4a Data Mining e motori computazionali
4a Data Mining e motori computazionali
 
UN APPROCCIO INTEGRATO ALLA SICUREZZA
UN APPROCCIO INTEGRATO ALLA SICUREZZAUN APPROCCIO INTEGRATO ALLA SICUREZZA
UN APPROCCIO INTEGRATO ALLA SICUREZZA
 
BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...
BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...
BUSINESS PROCESS MANAGEMENT IN SANITÀ: RE-ENGINEERING DEI PROCESSI PER LA DIG...
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
 
pdf intelligenza artificiale.pdf
pdf intelligenza artificiale.pdfpdf intelligenza artificiale.pdf
pdf intelligenza artificiale.pdf
 

More from Stefano Maria De' Rossi

Data mining in support of fraud management
Data mining in support of fraud managementData mining in support of fraud management
Data mining in support of fraud management
Stefano Maria De' Rossi
 
Storia della bambina e della stella marina
Storia della bambina e della stella marinaStoria della bambina e della stella marina
Storia della bambina e della stella marina
Stefano Maria De' Rossi
 
Tackling Card not present Fraud
Tackling Card not present FraudTackling Card not present Fraud
Tackling Card not present Fraud
Stefano Maria De' Rossi
 
Merging fraud in a full IP environment
Merging fraud in a full IP environmentMerging fraud in a full IP environment
Merging fraud in a full IP environment
Stefano Maria De' Rossi
 
Mobile Payment fraud & risk assessment
Mobile Payment fraud & risk assessmentMobile Payment fraud & risk assessment
Mobile Payment fraud & risk assessment
Stefano Maria De' Rossi
 
Social Media Security
Social Media SecuritySocial Media Security
Social Media Security
Stefano Maria De' Rossi
 
Presentazione ADM 2011
Presentazione ADM 2011Presentazione ADM 2011
Presentazione ADM 2011
Stefano Maria De' Rossi
 
Mind mapping
Mind mapping Mind mapping
Identifying high value customers
Identifying high value customersIdentifying high value customers
Identifying high value customers
Stefano Maria De' Rossi
 
Costruire la relazione
Costruire la relazioneCostruire la relazione
Costruire la relazione
Stefano Maria De' Rossi
 
Using business intelligence for competitive advantage
Using business intelligence for competitive advantageUsing business intelligence for competitive advantage
Using business intelligence for competitive advantage
Stefano Maria De' Rossi
 
Competitive intelligence overview
Competitive intelligence overviewCompetitive intelligence overview
Competitive intelligence overview
Stefano Maria De' Rossi
 
Studio Labsus v2009
Studio Labsus v2009Studio Labsus v2009
Studio Labsus v2009
Stefano Maria De' Rossi
 
E Fraud And Predictive Forensic Profiling Reducing Losses By Combining Sci...
E Fraud And Predictive Forensic Profiling    Reducing Losses By Combining Sci...E Fraud And Predictive Forensic Profiling    Reducing Losses By Combining Sci...
E Fraud And Predictive Forensic Profiling Reducing Losses By Combining Sci...
Stefano Maria De' Rossi
 
Cfca Global Fraud Loss Survey2009
Cfca Global Fraud Loss Survey2009Cfca Global Fraud Loss Survey2009
Cfca Global Fraud Loss Survey2009
Stefano Maria De' Rossi
 

More from Stefano Maria De' Rossi (20)

CRM Value proposition - smdr
CRM Value proposition - smdrCRM Value proposition - smdr
CRM Value proposition - smdr
 
GALA breve presentazione maggio 2015
GALA breve presentazione maggio 2015GALA breve presentazione maggio 2015
GALA breve presentazione maggio 2015
 
2015 GALA presentazione apr2016
2015 GALA presentazione apr20162015 GALA presentazione apr2016
2015 GALA presentazione apr2016
 
slide PROGEDIL PS da paura
slide PROGEDIL  PS da paura slide PROGEDIL  PS da paura
slide PROGEDIL PS da paura
 
Data mining in support of fraud management
Data mining in support of fraud managementData mining in support of fraud management
Data mining in support of fraud management
 
Storia della bambina e della stella marina
Storia della bambina e della stella marinaStoria della bambina e della stella marina
Storia della bambina e della stella marina
 
Tackling Card not present Fraud
Tackling Card not present FraudTackling Card not present Fraud
Tackling Card not present Fraud
 
Merging fraud in a full IP environment
Merging fraud in a full IP environmentMerging fraud in a full IP environment
Merging fraud in a full IP environment
 
Mobile Payment fraud & risk assessment
Mobile Payment fraud & risk assessmentMobile Payment fraud & risk assessment
Mobile Payment fraud & risk assessment
 
Social Media Security
Social Media SecuritySocial Media Security
Social Media Security
 
Presentazione ADM 2011
Presentazione ADM 2011Presentazione ADM 2011
Presentazione ADM 2011
 
Competitive_intelligence
Competitive_intelligenceCompetitive_intelligence
Competitive_intelligence
 
Mind mapping
Mind mapping Mind mapping
Mind mapping
 
Identifying high value customers
Identifying high value customersIdentifying high value customers
Identifying high value customers
 
Costruire la relazione
Costruire la relazioneCostruire la relazione
Costruire la relazione
 
Using business intelligence for competitive advantage
Using business intelligence for competitive advantageUsing business intelligence for competitive advantage
Using business intelligence for competitive advantage
 
Competitive intelligence overview
Competitive intelligence overviewCompetitive intelligence overview
Competitive intelligence overview
 
Studio Labsus v2009
Studio Labsus v2009Studio Labsus v2009
Studio Labsus v2009
 
E Fraud And Predictive Forensic Profiling Reducing Losses By Combining Sci...
E Fraud And Predictive Forensic Profiling    Reducing Losses By Combining Sci...E Fraud And Predictive Forensic Profiling    Reducing Losses By Combining Sci...
E Fraud And Predictive Forensic Profiling Reducing Losses By Combining Sci...
 
Cfca Global Fraud Loss Survey2009
Cfca Global Fraud Loss Survey2009Cfca Global Fraud Loss Survey2009
Cfca Global Fraud Loss Survey2009
 

Tecniche di Data Mining a supporto del fraud management

  • 1. >> La sintesi contenuta in questo articolo deriva dal lavoro che l’autore ha svolto durante la preparazione del seminario sul data- mining ed il fraud management tenutosi a Roma nell’auditorio di Telecom Italia il 13 Settembre 2011, grazie ad una lodevole iniziativa di Stefano Maria De’ Rossi cui vanno i ringraziamenti dell’autore. Ulteriori approfondimenti sul tema del fraud management sono consultabili sui numeri 2, 3, 4 della rivista Information Security Le tecniche di Data Mining a supporto del fraud management Marco Scattareggia, laureato in Ingegneria Elettronica, lavora a Roma presso la Hewlett-Packard Italiana dove dirige il Center of Excellence di HP EMEA dedicato alla progettazione e realizzazione di soluzioni di fraud management per gli operatori di telecomunicazioni. Qualora l’articolo sia stato di interesse per il lettore, è possibile inviare richieste di chiarimento e valutazioni di merito all’indirizzo e-mail marco.scattareggia@hp.com. Information Security - n. 7 nov/dic 2011 scenari 53 RAGIONAMENTO INDUTTIVO, DATA MINING E FRAUD MANAGEMENT Il data-mining, ovvero lo scavare nei dati alla ricerca dell’oro della cono- scenza, consiste nella combinazione di più discipline tra cui la statistica in- ferenziale, la gestione informatica delle basi di dati e il machine learning. Quest’ultimo è lo studio dell’autoapprendimento robotico nell’ambito della ricerca sull’intelligenza artificiale e per data-mining si intende l’estrarre della conoscenza da una grande massa di dati al fine di acquisire le regole che diano supporto alle decisioni e che determinino le eventuali azioni da in- traprendere. Nella lingua inglese questo concetto si esprime efficacemente con il termine Actionable Insight. Il data-mining copre un ampio campo di attività di analisi e in questo arti- colo si vogliono evidenziare i benefici che i processi di business, come il fraud management, possono in particolare trarre dalle tecniche previsionali. Queste ultime, note come Predictive Analytics, si compongono di tre ele- menti: 1. Grandi quantità di dati da analizzare e sufficienti a fornire dei campioni rappresentativi per l’addestramento, la verifica e la validazione dei mo- delli predittivi;
  • 2. 2. Tecniche di analisi per la comprensione dei dati, delle loro strutture e del loro significato; 3. Modelli previsionali articolabili, come ogni processo informatico, in termini di “input, process e output”; ovvero in parametri predittori, in algoritmi di calcolo e in obiettivi e risultati della previsione. In aggiunta alle tecniche di analisi sono anche necessari adeguati strumenti e metodi per il caricamento, la trasformazione e la normalizzazione dei dati. Tali attività preliminari sono evidenziate nelle prime fasi del paradigma KDD (Knowledge Discovery in Databases) e sono generalmente presenti nei prodotti noti come ETL (Extract, Transform, Load). Se si visita il sito www.kdd.org, si può capire come il data-mining possa consistere effettivamente nella fase di analisi del processo interattivo per l’estrazione della conoscenza dai dati illustrato in Figura 1. Essendo però interessati alle applicazioni pratiche del data-mining in un contesto industriale, è utile esaminare anche la Figura 2 dove è riportata l’evoluzione delle tecniche di business analytics. Si inizia con la semplice attività di reporting, che fornisce una sintesi grafica dei dati aggregati secondo le diverse dimensioni di interesse ed evidenzia così le principali differenze e gli elementi di maggiore interesse. La successiva fase di analysis corrisponde all’attività di studio dei dati per capire “perché” è avvenuto un determinato fenomeno. Successivamente il monitoring corrisponde all’utilizzo di strumenti che permettono di controllare cosa sta succedendo ed, infine, il predictive analytics permette di stabilire cosa potrebbe o dovrebbe accadere in futuro. Ovviamente, va subito precisato che il futuro può essere predetto solo in termini probabilistici e non ci sarà la certezza del cento per cento su cosa accadrà veramente. In pratica viene fornito un ordinamento (ranking) su scala probabilistica dei possibili eventi in base all’esperienza precedentemente accumulata. Tale ordinamento, noto come attività di scoring, permette di assegnare in termini percentuali un valore, lo score, il quale esprime la confidenza che abbiamo nella previsione stessa. Il livello di confidenza raggiunto ci permette di eseguire l’azione più consona alla previsione effettuata; ad esempio nel fraud management uno score elevato, corrispondente ad un elevato rischio di frode, e può determinare il blocco automatico dell’erogazione del servizio (il prestito finanziario da parte di una banca, la linea telefonica di un operatore, la copertura assicurativa, ecc.), mentre uno score più moderato potrebbe richiedere solo un supplemento di indagine da parte dell’analista. Questo articolo vuole mostrare come le applicazioni di fraud management, inteso come processo di business, possano trarre evidenti benefici dalle tecniche di data- mining e dall’uso pratico dei modelli predittivi. È interessante evidenziare che le tecniche di business analytics derivano dalla statistica inferenziale e più precisamente dal ragionamento probabilistico di Bayes, ovvero dal porsi il problema di stabilire quali cause hanno determinato l’effetto che è stato osservato. Il teorema di Bayes sulla probabilità condizionata (teorema per la probabilità delle cause) risponde alla domanda: “Sapendo che si è verificato l’effetto B, qual è la probabilità che la causa sia A?”. In breve fornisce la probabilità della causa dato l’effetto. Ad esempio sul numero 4 di Information Security, pubblicato a Maggio/Giugno 2011, nell’articolo “Come realizzare un Modello Predittivo” è stato mostrato il modo di calcolare la probabilità di acquisto che un impiegato esperto assegna ad ogni avventore in base al genere della persona, uomo o donna, ed in base al fatto che la persona sia vestita in modo più o meno ricercato. Si può ora constatare che, durante la costruzione del modello predittivo “l’effetto” (acquisto positivo o acquisto negativo) è noto, mentre è “la causa” ad essere oggetto di studio e richiedere una valutazione probabilistica. In tale fase di analisi i 54 scenari Information Security - n. 7 nov/dic 2011 Figura 1
  • 3. ruoli sono invertiti: dato l’effetto si cerca la causa. Nella successiva fase esecutiva i ruoli di causa ed effetto riprendono la loro sequenza naturale: data la causa si prevede l’effetto che ne deriva. In altre parole, nel modello previsionale, il sesso si comporta da “predittore”, mentre l’acquisto, nel suo attributo di positivo o negativo, diventa “l’oggetto” (Target) da indovinare. La fase di analisi, durante la quale i ruoli “causa ed effetto” sono invertiti, è indicata nelle tecniche di Predictive Analytics come “addestramento” (training) del modello. Di seguito, in Figura 3, è riportata la tabella di contingenza con dei valori esemplificativi delle probabilità da utilizzare nel teorema di Bayes per calcolare la probabilità di acquisto per un uomo o una donna. In altre parole, si vuole prevedere la probabilità di acquisto (“effetto”) conoscendo il sesso dell’avventore (“causa”). È come dire che avendo analizzato la storia degli acquisti diversificati sulla base del genere delle persone ed avendo potuto calcolare la probabilità della causa (“sesso”) condizionata da un specifico effetto (“acquisto”), si può utilizzare un modello previsionale basato sul teorema di Bayes per prevedere la probabilità di un futuro acquisto una volta che si disponga del sesso della persona. Il teorema delle probabilità delle cause di Thomas Bayes è ampiamente impiegato per prevedere quali cause hanno maggiore probabilità di aver scatenato l’evento osservato. Tuttavia è stato Pierre-Simon Laplace a consolidare, nel suo “Essai philosophique sur les probabilités (1814)”, il sistema logico che è alla base del ragionamento induttivo e che oggi indichiamo come ragionamento bayesiano. La formula che emerge dal sistema di Laplace è la “regola delle successioni”. Supposto che gli esiti di un fenomeno siano solo due, “successo” e “fallimento” e supposto che “a priori” si sappia poco o nulla di come venga determinato l’esito dei risultati, Laplace derivò il modo per calcolare la probabilità che il successivo esito sia un successo: P = (s+1)/(n+2) dove “s” è il numero successi precedentemente osservati e “n” il numero totale dei casi noti. Laplace si spinse ad utilizzare la sua regola delle successioni per calcolare la probabilità del sorgere del sole ad ogni nuovo giorno, basandosi sul fatto che fino ad oggi tale evento non sia mai fallito. Ovviamente fu fortemente criticato dai suoi contemporanei per questa sua irreverente estrapolazione. L’obiettivo della statistica inferenziale è fornire i metodi che servono ad imparare dall’esperienza, cioè a costruire modelli per passare da casi particolari al caso generale. Ma la regola delle successioni di Laplace, come anche tutto il sistema del ragionamento induttivo Bayesiano, può portare a dei clamorosi errori. Le insidie insite nei ragionamenti sulle probabilità sono messe in evidenza dai cosiddetti paradossi che pongono domande le cui giuste risposte appaiono fortemente illogiche. Il filosofo Bertrand Russell mise, ad esempio, in evidenza che cadendo dal tetto di un palazzo di venti Information Security - n. 7 nov/dic 2011 scenari 55 Figura 2 Figura 3
  • 4. piani quando si è arrivati all’altezza del primo piano si potrebbe erroneamente dedurre con la regola delle successioni di Laplace che, non essendo successo nulla di male durante la caduta per ben 19 dei 20 piani, non ci sia alcun pericolo anche nel ventesimo tratto di caduta. Russell concluse pragmaticamente che il ragionamento induttivo non deve solo portare ad una maggiore probabilità, ma anche essere “ragionevolmente credibile”. Un ulteriore esempio spesso utilizzato per dimostrare i limiti del procedimento logico induttivo è il “paradosso dei corvi neri” sviluppato negli anni ’40 da Carl Gustav Hempel. Esaminando, ad uno ad uno, un milione di corvi, notiamo che sono tutti neri. Dopo ogni osservazione, perciò, la teoria che tutti i corvi siano neri diviene sempre più probabilmente vera, coerentemente col principio induttivo. Ma l’assunto “i corvi sono tutti neri”, se isolato, è logicamente equivalente all’assunto “tutte le cose che non sono nere, non sono corvi”. Questo secondo enunciato diventerebbe più probabilmente vero anche in seguito all’osservazione di una “mela rossa”: osserveremmo, infatti, una cosa “non nera” che “non è un corvo”. Ma l’osservazione di una mela rossa, se presa per rendere più vero l’assunto secondo cui tutti i corvi sono neri, non è consistente e non è ragionevolmente credibile. Bertrand Russell argomenterebbe che se la popolazione di corvi nel mondo comprende in totale “un milione più uno” esemplari, allora la deduzione “i corvi sono tutti neri” è da ritenere ragionevolmente giusta, ma se invece si dovesse stimare l’esistenza di “cento milioni” di corvi allora il campione di un solo milione di corvi neri non sarebbe più sufficiente. È sulla base di questa “risposta di Russell” che si fondano i presupposti per poter adottare nella pratica le previsioni fornite dai modelli predittivi ed utilizzarle per prendere le decisioni di business. Nello scegliere i campioni di dati per l’addestramento, il test e la validazione di un modello predittivo, occorre formulare due domande fondamentali: a) Le regole che costituiscono l’algoritmo del modello sono consistenti con le caratteristiche delle entità individuali che compongono il campione? b) I dati del campione sono rappresentativi dell’universo della popolazione di soggetti che si vuole sottoporre alle previsioni? Le risposte a queste due domande derivano rispettivamente dai concetti di validità interna e di validità esterna di uno studio statistico inferenziale come indicato nella Figura 5. La validità interna misura quanto i risultati del modello e dell’analisi effettuata sono corretti per il campione delle entità che sono state studiate e può venire compromessa dalla variazione non perfettamente casuale dei dati che agisce come rumore ed elemento di disturbo (bias). La validità interna rappresenta una condizione necessaria ma non sufficiente perché un modello sia utilizzabile e si deve verificare anche la validità esterna e cioè il grado di generalizzazione acquisita dal modello predittivo. Quando il modello non ha prodotto delle regole che abbiano generalizzato a sufficienza è probabile che durante la fase di training abbia semplicemente “memorizzato” (overfitting) la maggior parte dei dati presenti nel campione utilizzato per il suo addestramento, ma non abbia efficacemente imparato dai dati ovvero estratto la conoscenza custodita nei dati stessi. In questa situazione il modello non sarà in grado Figura 4 56 scenari Information Security - n. 7 nov/dic 2011 Figura 5
  • 5. di processare con successo i casi presenti nei campioni di test e di validazione. Ciò supponendo che i dati presenti nei campioni di test e validazione siano correttamente separati e non sovrapponibili a quelli del campione di training; si noti come sia preferibile usare un terzo set di dati, in aggiunta al normale campione di test, con cui validare ulteriormente la generalizzazione del modello rispetto sia ai dati contenuti nel campione di addestramento sia in quello di test. Le tecniche di predictive analytics aiutano a prendere decisioni una volta che sono stati classificati e caratterizzati i dati di un certo fenomeno. Altre tecniche, come l’OLAP (On-Line Analytical Processing), aiutano comunque a prendere decisioni perché permettono di vedere cosa sia successo. Tuttavia un modello predittivo fornisce direttamente la previsione di un fenomeno, ne stima la dimensione e quindi si presta ad azionare degli automatismi. Un’ulteriore possibilità resa disponibile dall’utilizzo delle tecniche di predictive analytics è la separazione e la classificazione degli elementi appartenenti ad un insieme non omogeneo. L’esempio più comune per questo tipo di applicazione è quello dei clienti da indirizzare in un’azione di marketing per decidere a chi mandare una proposta commerciale con la ragionevole probabilità di ottenere una risposta positiva e, a ragione, in questi casi si può parlare di business intelligence. Tale tecnica, nota come “clustering”, è utile anche nel Fraud Management perché permette di rendere più mirata l’azione dei modelli predittivi; infatti è possibile, sin dalla fase di addestramento del modello, suddividere la massa dei dati in sottoinsiemi omogenei e rendere quindi il comportamento attuato negli schemi di frode più facilmente prevedibile. Peraltro, l’individuazione di sottoinsiemi con parametri particolarmente distanti dai valori medi, detti out-layer, porta direttamente all’individuazione di casi che hanno una forte probabilità di frode e che quindi richiedono un’investigazione più approfondita. IL DILEMMA DEL FRAUD MANAGER Il desiderio di ogni organizzazione, che sia consapevole delle perdite di ricavi dovute alle frodi, è ovviamente quello di azzerare tali perdite. Purtroppo ciò non è possibile a causa sia di problemi intrinsecamente connessi con il fenomeno frodatorio, legati principalmente alla rapida reazione delle organizzazioni criminali che ne traggono profitto e che trovano rapidamente nuovi schemi di attacco e nuove debolezze nei sistemi di difesa, sia perché anche il contrasto delle frodi ha un costo che cresce proporzionalmente al livello di difesa messo in atto. La Figura 6 mostra graficamente che, senza sistemi di contrasto, le perdite per frodi possono raggiungere livelli molto elevati, dell’ordine di oltre il 30% dei ricavi totali, e potrebbero anche mettere a rischio la sopravvivenza stessa dell’azienda. Attivando un’adeguata organizzazione di fraud management, fornendosi cioè di un responsabile e di una squadra di controllo dotata di un’opportuna infrastruttura tecnologica, le perdite scendono immediatamente a livelli accettabili dell’ordine di poche cifre percentuali. Tuttavia, nel tentativo di azzerare completamente le frodi si possono introdurre facilmente dei costi così elevati, in termini di personale e di strumenti, da superare l’ulteriore riduzione delle perdite. La competenza del fraud manager deve permettere di individuare il punto ottimale di compromesso tra i costi della sua struttura e le perdite dovute alle frodi residue, indicato con il colore rosso nella Figura 6. La maggiore difficoltà però non sta nel riuscire a dimostrare alla propria linea di management quanto valgano le frodi residue, ma nello stimare le perdite già evitate con l’attività precedentemente eseguita dalla propria squadra di analisti. In altre parole non è assolutamente facile valutare la dimensione e le conseguenze delle frodi che “non” sono state messe in atto. Per approfondire questo tema e capire come calcolare il ROI di un FMS, si può far riferimento all’articolo “Ritorno sull’Investimento di un FMS” pubblicato a marzo/aprile Information Security - n. 7 nov/dic 2011 scenari 57 Figura 6
  • 6. sul numero 3 di Information Security. Tecnicamente è necessario scegliere degli adeguati KPI (Key Performance Indicator) e misurare sia il valore delle frodi individuate in un determinato periodo sia di quelle residue nello stesso periodo. Nella Figura 7 sono rappresentati gli andamenti dei KPI noti come precision (percentuale delle frodi accertate sul totale di frodi analizzate) e recall (percentuale di frodi individuate sul totale di frodi esistenti). Desiderando raggiungere il punto ideale per il quale si avrebbero contemporaneamente una precision ed una recall del 100%, si possono fare vari tentativi per migliorare l’uno o l’altro KPI. Ad esempio si può aumentare il numero di casi di sospetta frode analizzati giornalmente (aumento di recall), a cui però corrisponde un maggior numero di ore di lavoro degli analisti. Viceversa, si può pensare di configurare con maggiore precisione l’FMS per diminuire il numero di casi da analizzare e allo stesso tempo eliminare i falsi allarmi che consumano inutilmente il tempo degli analisti. Nella pratica si dimostra però che, se non si aumenta il contenuto informativo in termini di regole per gli strumenti di analisi, chiavi di ricerca, ecc., all’aumentare della precision si riduce contemporaneamente la percentuale di recall e viceversa. La problematica sin qui esposta corrisponde al dilemma che affligge ogni fraud manager, esprimibile nel fatto che non si possono migliorare i risultati della lotta alle frodi senza aumentare contemporaneamente i costi della relativa struttura, oppure senza aumentare le informazioni messe a disposizione. È quindi necessario andare incontro ad almeno una di queste due esigenze, costi o informazioni, e possibilmente migliorarle entrambe. I modelli predittivi si prestano a migliorare l’efficacia e l’efficienza del reparto di fraud management. Infatti, con le tecniche induttive proprie degli alberi decisionali è possibile estrarre dai dati nuove regole per l’individuazione dei casi di frode e ciò migliora l’efficacia del FMS. Inoltre, con le tecniche di scoring diventa più semplice organizzare le risorse umane disponibili sulla base della priorità, ovvero del rischio associato a ciascun caso di sospetta frode; in tal modo si può migliorare l’efficienza del lavoro ed è anche possibile abilitare meccanismi automatici da utilizzare durante le ore notturne e in assenza di personale. Nella Figura 8 è tracciata in blu la curva di guadagno (gain chart) ottenuto grazie ad un modello predittivo che ha fornito un’elevata qualità di scoring. Il punto evidenziato nella figura mostra infatti che dopo aver esaminato solo il 20% dei casi, sono già state individuate il 90% dei casi di vera frode risparmiando in modo significativo il tempo degli analisti. Ciò in contrapposizione ad un’analisi dei casi che segua un ordine casuale quale quello indicato dalla diagonale principale. La linea rossa indica invece il percorso ideale, che è 58 scenari Information Security - n. 7 nov/dic 2011 Figura 7 Figura 8
  • 7. praticamente irraggiungibile ma a cui è giusto tendere, secondo il quale tutti casi di vera frode sono esaminati per primi senza aver perso tempo ad esaminare anche un solo falso allarme. È interessante notare come questa situazione ideale corrisponda ad avere entrambi i KPI precision e recall uguali al 100% e quindi ad un modello che abbia raggiunto il punto ideale evidenziato in Figura 7. Per un’analisi completa sulla valutazione di un modello predittivo si può fare riferimento all’articolo “Valutazione delle capacità predittive di un FMS” pubblicato a febbraio/marzo sul numero 2 di Information Security. REALIZZAZIONE DI UN MODELLO PER LO SCORING DEI CASI DI FRODE NELLE TELECOMUNICAZIONI Nella Figura 9 è rappresentato lo schema concettuale di un modello predittivo per lo scoring dei casi di frode in un’azienda di telecomunicazioni. In tale rappresentazione l’algoritmo che costituisce il nucleo del modello è rappresentato da una “rete neurale”, ma lo schema non cambierebbe se si scegliesse un diverso algoritmo come, ad esempio, un albero decisionale, una rete di Bayes, ecc. Gli allarmi ed i casi generati dal FMS derivano da aggregazioni o da altre elaborazioni delle informazioni contenute nei dati provenienti dall’esterno ed in particolare in quelli del traffico. Quindi, se la configurazione del FMS e le sue regole sono ben curate, si può supporre che le informazioni provenienti dal traffico siano già rappresentate, nell’ambito del fenomeno frodatori, dagli allarmi e dai casi. In generale, tutti i dati di input possono essere trasformati e sostituiti con altri parametri derivati. Tutti i parametri di input, sia quelli originali sia quelli derivati tramite FMS oppure derivati da trasformazioni realizzate all’interno del modello predittivo, concorrono in una sorta di gara per essere eletti a predittori del modello, cioè ad input direttamente in ingresso al nucleo algoritmico del modello previsionale che è evidenziato nel riquadro in blu scuro della figura. L’output del modello predittivo è semplicemente il valore di score associato al caso in esame. Tale valore esprime una percentuale e quindi varia tra zero e cento, ovvero tra zero ed uno, ed esprime la probabilità che il caso sia una vera frode, quando lo score è 100, oppure un falso allarme se lo score è prossimo allo zero. L’inserimento di un modello predittivo nel contesto operativo dell’azienda ha un impatto significativo sulla struttura esistente di IT e la sua integrazione può richiedere molti mesi di lavoro per lo sviluppo di software e di processi personalizzati. Tuttavia, recentemente lo sviluppo di Internet e dei web services, ovvero gli emergenti paradigmi del cloud computing e della vendita di soluzioni in modalità SaaS, ha aperto la strada ad un più facile passaggio in produzione dei modelli predittivo. La comunità di data-mining, rappresentata nel Data Mining Group (DMG), ha sviluppato recentemente un nuovo linguaggio, il PMML (Predictive Model Markup Language) che è destinato a diventare la “lingua franca”, parlata da molti fornitori e sistemi concorrenti, per la definizione ed utilizzo pratico di un modello predittivo. Il PMML, che è basato sullo standard XML, fornisce tutti i metodi e gli strumenti per definire, verificare e poi mettere in pratica i modelli predittivi. Ciò senza che il modello sia necessariamente sviluppato ed eseguito da prodotti software dello stesso fornitore. Tutte le definizioni e le descrizioni necessarie per comprendere il PMML sono disponibili sul sito del DMG http://www.dmg.org/. In conclusione il PMML, essendo standard e open, se combinato con un’offerta di cloud computing può abbassare drasticamente il TCO (Total Cost of Ownership) abbattendo le barriere di incompatibilità tra i diversi sistemi dell’infrastruttura informatica già operativi nell’azienda. Per di più, l’inserimento del modello nel contesto operativo delle applicazioni può essere curato direttamente dalle stesse persone che lo hanno sviluppato, senza cioè coinvolgere pesantemente i tecnici del reparto di IT. Per un approfondimento sulla realizzazione dei modelli predittivi si rimanda all’articolo “Come realizzare un Modello Predittivo” pubblicato a maggio/giugno sul numero 4 di Information Security. Information Security - n. 7 nov/dic 2011 scenari 59 Figura 9