3. Processo di estrazione di conoscenza
da banche dati di grandi dimensioni
tramite l’applicazione di algoritmi che
individuano le associazioni “nascoste”
tra le informazioni e le rendono visibili.
Che cosChe cosChe cosChe cos’è’è’è’è il Datail Datail Datail Data MiningMiningMiningMining
Processo di esplorazione ed analisi,
automatico o semi-automatico, di
un’ampia mole di dati al fine di
scoprire modelli e regole significative
4. PerchPerchPerchPerchèèèè usare gli strumenti di datausare gli strumenti di datausare gli strumenti di datausare gli strumenti di data miningminingminingmining
Gli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza di
sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati
che si hanno a disposizione.
Acquisire informazioni non è
un problema se si pensa alla
ricchezza delle sorgenti di
dati accessibili sul web o
attraverso Data Warehouse
aziendali, il problema è
utilizzarle.
volumevolume
valore
dati
informazione
conoscenza
decisione
5. Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)
Data Mining come parte di un processo più generale definito
Knowledge Discovery in Database (KDD)
Essenza del Data Mining è la trasformazione dei dati in risultati
applicabili
7. Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980
1990-
2000
Raccolta dati,
modelli gerarchici
e relazionali
Diffusione DBMS
relazionali commerciali
Modello relazionale dei dati,
primi DMBS relazionali
Data mining e
data warehousing
Modelli
predittivi
2000-
2011
8. Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980
1990-
2000
Raccolta
dati
Quanto ho
venduto negli
ultimi 3 anni
Accesso
ai dati
Quanto ho
venduto al Nord
lo scorso gennaio?
Viste le vendite al
nord, quale è il
dettaglio per città?
Query a
database
Data Mining
Perché vendiamo
di più in alcune
città?
1990-
2000
Modelli
predittivi
Dove/a chi potrò
vendere di più?
9. Il ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del data miningminingminingmining
Individuazione
dei problemi e dei settori di business
per cui l’analisi può essere utile
Trasformazione
in informazioni applicabili (actionable)
con le tecniche del data mining
Azione
sulla base delle informazioni
Misurazione
Dei risultati ottenuti per avere info utili
su come utilizzare al meglio i dati
10. DataDataDataData MiningMiningMiningMining e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
La business intelligence è un insieme di processi e sistemi che consentono di
trasformare i dati generati dalle attività aziendali in informazioni.
Il data mining è una “tecnica” di Business Intelligence
11. Ambiente dati
a supporto
delle decisioni
manageriali
Integrato
Subject-oriented
Non Volatile
Tante fonti
eterogenee
racchiuse in un
unico contenitore
Creazione
vantaggio
competitivo
Pianificazione
strategie di
medio-lungo
periodoOttimizzazione
dei processi
Knowledge
Discovery in
Database
DataDataDataData MiningMiningMiningMining, Data, Data, Data, Data WarehouseWarehouseWarehouseWarehouse e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
12. DataDataDataData MiningMiningMiningMining e OLAPe OLAPe OLAPe OLAP
OLAP
Analisi del contenuto
attraverso lo studio di
aggregazioni guidate
dall’utente
Data Mining
“estrazione di conoscenza
(non banale, implicita,
nuova, potenzialmente
utile) da grandi quantità di
informazioni”
Cosa sta
succedendo
Perché sta
succedendo
14. Contesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecniche
CLASSIFICAZIONE SEGMENTAZIONE PREVISONE
ANALISI
ASSOCIAZIONI
CLASSIFICAZIONE
FRAUD DETECTION
CLUSTER ANALYSIS
CREDIT SCORING
CROSS SELLING
SCORING
PROMOZIONALE
CHURN ANALYSIS
15. Contesto applicativoContesto applicativoContesto applicativoContesto applicativo
DATA
MINING
SUB
POINT
EFFICIENTE
DISTRIBUZIONE
RISORSE
INDIVIDUAZIONE
TARGET
REMUNERATIVI
OPPORTUNITA’
DI CRESCITA
AUMENTO
PRODUTTIVITA’
UP/ CROSS
SELLING
FIDELIZZAZIONE
RIDUZIONE
RISCHI FRODE
16. Contesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempi
17. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining
MODELLI
EFFICACI
I DATI
DATA MINING
TECNICHE
18. Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Le tecniche di data mining non sono altro che un generale
approccio alla soluzione dei problemi ed esistono molti modi per
realizzarle.
Ognuno di questi modi rappresenta un diverso algoritmo.
tecnica
algoritmo
La tecnica è l’approccio concettuale che porta
all’estrazione delle informazioni dai dati
È il la formula che viene utilizzata per
l’implementazione di una tecnica
19. Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Il data mining puo’ essere descrittivo, o prescrittivo in base
all’obiettivo dell’analisi che si sta svolgendo
DESCRITTIVO
PRESCRITTIVO
TECNICHE
L’obiettivo è approfondire la conoscenza di cio’ che
avviene all’interno dei dati e quindi del mondo che
rispecchiano.
Le azioni non possono essere automatizzate
L’obiettivo principale è l’automazione del processo
decisionale ottenuta creando un modello in grado di
dare una previsione o stimare un valore
20. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining
Con il termine cluster si intende un gruppo di unità simili o vicine tra
loro, dal punto di vista della posizione o della composizione
CLUSTERING
K-Means
Method
21. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining
Un albero di decisione viene utilizzato per classificare le istanze di
grandi quantità di dati (per questo viene anche chiamato albero di
classificazione). In questo ambito un albero di decisione descrive una
struttura ad albero dove i nodi foglia rappresentano le classificazioni e
le ramificazioni l'insieme delle proprietà che portano a quelle
classificazioni.
ALBERI DECISIONALI
22. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining
Le reti neurali rappresentano la tecnica più nota di data mining, ma
forse anche la meno compresa. Ciò è dovuto in gran parte alla
terminologia delle scienze cognitive da cui deriva il suo nome.
L’obiettivo dei primi modelli era infatti replicare il comportamento
delle cellule nervose umane.
Le reti neurali dal punto di vista del data mining non sono altro che
un metodo per applicare un modello a dati storici al fine di poter
ricavar classificazioni o previsioni.
RETI NEURALI
23. Modelli di reti neuraliModelli di reti neuraliModelli di reti neuraliModelli di reti neurali
24. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining
MODELLI
EFFICACI
I DATI
DATA MINING
TECNICHE
25. I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: dati: dati: dati: dati
Il secondo pilastro su cui poggia il data mining è rappresentato dai
dati utilizzati nel processo: senza di essi, il data mining non sarebbe
possibile e potrebbe contare solamente su qualche intuizione.
I dati assumono le forme più disparate, sono di tipo diversi e si
trovano in molti sistemi; sono “quasi sempre” sporchi, incompleti e
talvolta indecifrabili.
I dati sono la
materia prima del
data mining
26. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining
MODELLI
EFFICACI
I DATI
DATA MINING
TECNICHE
27. I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: modellazione: modellazione: modellazione: modellazione
Il terzo pilastro è rappresentato da una serie di competenze di
modellistica necessarie per costruire modelli.
Il data mining viene applicato per lo più per costruire modelli
previsionali che rilevano pattern significativi sui dati accumulati al
fine di fare previsioni relative ad esiti futuri.
Lo scopo dei modelli è l’utilizzo delle previsioni per prendere
decisioni più informate.
28. 2 stili di data2 stili di data2 stili di data2 stili di data miningminingminingmining
SUPERVISIONATO
NON SUPERVISIONATO
STILI DI DATA
MINING
E’ un approccio top-down applicabile
quando sappiamo che cosa stiamo
cercando, ed assume spesso la forma di
modelli previsionali.
E’ un approccio bottom–up in cui si lascia che
i dati stessi indichino un risultato.
Spetta all’utente stabilirne l’importanza.
I modelli predittivi realizzabili con gli strumenti di data mining sono
essenzialmente di due tipi:
29. 29
The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:
Decision
Optimization
Recommend
the most
appropriate
action
to take
Enterprise
Data Sources
Read new data
on customers,
events, etc. for
continuous
improvement
Predictive Analytics
Analyze data to
provide insight and
predict the future
Acquisire
Modelli predittivi
Improve customer retention
Grow share of wallet
Minimize risk
Increase customer satisfaction
Enhance market share
Prospects
Customers Constituents
Employees
Students Patients
Agire
Dashboards
Kiosks / Mobile
CRM / ERP
Sterling Apps
30. I modelli previsionaliI modelli previsionaliI modelli previsionaliI modelli previsionali
Il modello predittivo è rappresentato da una black box: a volte non
interessa il meccanismo di funzionamento ma interessa la migliore
previsione possibile.
31. Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
32. Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
33. Dati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempo
Il passato serve a prevedere il futuro
Per costruire un modello
efficace, i dati nel set di
costruzione devono imitare
il timeframe in cui il
modello verrà applicato
34. Misurazione dellMisurazione dellMisurazione dellMisurazione dell’’’’efficaciaefficaciaefficaciaefficacia
Matrice di Confusione: matrice che permette di individuare quali
tra le previsioni fornite dal modello previsionale siano corrette e
quali errate
Curva Lift: grafico che raffigura le prestazioni di un modello
previsionale come funzione della dimensione del campione.
35. Il confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROC
Le curve ROC furono utilizzate per la prima volta da alcuni
ingegneri elettrici durante la seconda guerra mondiale, che volevano
scovare i nemici utilizzando il radar durante le battaglie.
Recentemente invece le curve ROC sono utilizzate anche in
medicina, radiologia, psicologia, veterinaria e altri ambiti, come
machine learning e data mining.
La statistica di sintesi per
valutare l’accuratezza di un
modello predittivo è l’area
sottesa alla curva (AUC)
36. DataDataDataData miningminingminingmining e fraud managemente fraud managemente fraud managemente fraud management
Grandi quantità di dati
Associazioni nascoste
Trasformazione dei dati in risultati applicabili
Modelli previsionali
37.
38. 38
Stefano M. de Rossi
smderossi@admind.it
www.admind.it
www.andreadimartino.wordpress.com
www.facebook.com/admind