introduzione al data mining

3,625 views
3,445 views

Published on

introduzione al data mining, definizione, storia e principali tecniche descrittive e predittive powered by admind

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,625
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
88
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

introduzione al data mining

  1. 1. Data Mining e modelli previsionali Roma 13 settembre 2011
  2. 2. PARTIAMO
  3. 3. Processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste” tra le informazioni e le rendono visibili. Che cosChe cosChe cosChe cos’è’è’è’è il Datail Datail Datail Data MiningMiningMiningMining Processo di esplorazione ed analisi, automatico o semi-automatico, di un’ampia mole di dati al fine di scoprire modelli e regole significative
  4. 4. PerchPerchPerchPerchèèèè usare gli strumenti di datausare gli strumenti di datausare gli strumenti di datausare gli strumenti di data miningminingminingmining Gli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza di sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati che si hanno a disposizione. Acquisire informazioni non è un problema se si pensa alla ricchezza delle sorgenti di dati accessibili sul web o attraverso Data Warehouse aziendali, il problema è utilizzarle. volumevolume valore dati informazione conoscenza decisione
  5. 5. Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD) Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD) Essenza del Data Mining è la trasformazione dei dati in risultati applicabili
  6. 6. Data Mining Database Technology Statistica Altre discipline Information Science Machine Learning Visualizzazione Il dataIl dataIl dataIl data miningminingminingmining èèèè la somma di discipline diversela somma di discipline diversela somma di discipline diversela somma di discipline diverse
  7. 7. Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica 1960 1970 1980 1990- 2000 Raccolta dati, modelli gerarchici e relazionali Diffusione DBMS relazionali commerciali Modello relazionale dei dati, primi DMBS relazionali Data mining e data warehousing Modelli predittivi 2000- 2011
  8. 8. Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica 1960 1970 1980 1990- 2000 Raccolta dati Quanto ho venduto negli ultimi 3 anni Accesso ai dati Quanto ho venduto al Nord lo scorso gennaio? Viste le vendite al nord, quale è il dettaglio per città? Query a database Data Mining Perché vendiamo di più in alcune città? 1990- 2000 Modelli predittivi Dove/a chi potrò vendere di più?
  9. 9. Il ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del data miningminingminingmining Individuazione dei problemi e dei settori di business per cui l’analisi può essere utile Trasformazione in informazioni applicabili (actionable) con le tecniche del data mining Azione sulla base delle informazioni Misurazione Dei risultati ottenuti per avere info utili su come utilizzare al meglio i dati
  10. 10. DataDataDataData MiningMiningMiningMining e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence La business intelligence è un insieme di processi e sistemi che consentono di trasformare i dati generati dalle attività aziendali in informazioni. Il data mining è una “tecnica” di Business Intelligence
  11. 11. Ambiente dati a supporto delle decisioni manageriali Integrato Subject-oriented Non Volatile Tante fonti eterogenee racchiuse in un unico contenitore Creazione vantaggio competitivo Pianificazione strategie di medio-lungo periodoOttimizzazione dei processi Knowledge Discovery in Database DataDataDataData MiningMiningMiningMining, Data, Data, Data, Data WarehouseWarehouseWarehouseWarehouse e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
  12. 12. DataDataDataData MiningMiningMiningMining e OLAPe OLAPe OLAPe OLAP OLAP Analisi del contenuto attraverso lo studio di aggregazioni guidate dall’utente Data Mining “estrazione di conoscenza (non banale, implicita, nuova, potenzialmente utile) da grandi quantità di informazioni” Cosa sta succedendo Perché sta succedendo
  13. 13. PREVISIONE Data Mining RAGGRUPPAMENTO CLASSIFICAZIONE DESCRIZIONE VISUALIZZAZIONE STIMA CLUSTERING Data mining “diretto” i dati disponibili vengono usati per creare un modello che descriva una variabile Data mining “indiretto” si cerca di stabilire una ben precisa relazione tra tutte le variabili in gioco CosaCosaCosaCosa puopuopuopuo’’’’ fare il datafare il datafare il datafare il data miningminingminingmining: aree di applicazioni: aree di applicazioni: aree di applicazioni: aree di applicazioni
  14. 14. Contesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecniche CLASSIFICAZIONE SEGMENTAZIONE PREVISONE ANALISI ASSOCIAZIONI CLASSIFICAZIONE FRAUD DETECTION CLUSTER ANALYSIS CREDIT SCORING CROSS SELLING SCORING PROMOZIONALE CHURN ANALYSIS
  15. 15. Contesto applicativoContesto applicativoContesto applicativoContesto applicativo DATA MINING SUB POINT EFFICIENTE DISTRIBUZIONE RISORSE INDIVIDUAZIONE TARGET REMUNERATIVI OPPORTUNITA’ DI CRESCITA AUMENTO PRODUTTIVITA’ UP/ CROSS SELLING FIDELIZZAZIONE RIDUZIONE RISCHI FRODE
  16. 16. Contesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempi
  17. 17. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining MODELLI EFFICACI I DATI DATA MINING TECNICHE
  18. 18. Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi Le tecniche di data mining non sono altro che un generale approccio alla soluzione dei problemi ed esistono molti modi per realizzarle. Ognuno di questi modi rappresenta un diverso algoritmo. tecnica algoritmo La tecnica è l’approccio concettuale che porta all’estrazione delle informazioni dai dati È il la formula che viene utilizzata per l’implementazione di una tecnica
  19. 19. Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi Il data mining puo’ essere descrittivo, o prescrittivo in base all’obiettivo dell’analisi che si sta svolgendo DESCRITTIVO PRESCRITTIVO TECNICHE L’obiettivo è approfondire la conoscenza di cio’ che avviene all’interno dei dati e quindi del mondo che rispecchiano. Le azioni non possono essere automatizzate L’obiettivo principale è l’automazione del processo decisionale ottenuta creando un modello in grado di dare una previsione o stimare un valore
  20. 20. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining Con il termine cluster si intende un gruppo di unità simili o vicine tra loro, dal punto di vista della posizione o della composizione CLUSTERING K-Means Method
  21. 21. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining Un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di dati (per questo viene anche chiamato albero di classificazione). In questo ambito un albero di decisione descrive una struttura ad albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle proprietà che portano a quelle classificazioni. ALBERI DECISIONALI
  22. 22. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining Le reti neurali rappresentano la tecnica più nota di data mining, ma forse anche la meno compresa. Ciò è dovuto in gran parte alla terminologia delle scienze cognitive da cui deriva il suo nome. L’obiettivo dei primi modelli era infatti replicare il comportamento delle cellule nervose umane. Le reti neurali dal punto di vista del data mining non sono altro che un metodo per applicare un modello a dati storici al fine di poter ricavar classificazioni o previsioni. RETI NEURALI
  23. 23. Modelli di reti neuraliModelli di reti neuraliModelli di reti neuraliModelli di reti neurali
  24. 24. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining MODELLI EFFICACI I DATI DATA MINING TECNICHE
  25. 25. I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: dati: dati: dati: dati Il secondo pilastro su cui poggia il data mining è rappresentato dai dati utilizzati nel processo: senza di essi, il data mining non sarebbe possibile e potrebbe contare solamente su qualche intuizione. I dati assumono le forme più disparate, sono di tipo diversi e si trovano in molti sistemi; sono “quasi sempre” sporchi, incompleti e talvolta indecifrabili. I dati sono la materia prima del data mining
  26. 26. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining MODELLI EFFICACI I DATI DATA MINING TECNICHE
  27. 27. I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: modellazione: modellazione: modellazione: modellazione Il terzo pilastro è rappresentato da una serie di competenze di modellistica necessarie per costruire modelli. Il data mining viene applicato per lo più per costruire modelli previsionali che rilevano pattern significativi sui dati accumulati al fine di fare previsioni relative ad esiti futuri. Lo scopo dei modelli è l’utilizzo delle previsioni per prendere decisioni più informate.
  28. 28. 2 stili di data2 stili di data2 stili di data2 stili di data miningminingminingmining SUPERVISIONATO NON SUPERVISIONATO STILI DI DATA MINING E’ un approccio top-down applicabile quando sappiamo che cosa stiamo cercando, ed assume spesso la forma di modelli previsionali. E’ un approccio bottom–up in cui si lascia che i dati stessi indichino un risultato. Spetta all’utente stabilirne l’importanza. I modelli predittivi realizzabili con gli strumenti di data mining sono essenzialmente di due tipi:
  29. 29. 29 The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process: Decision Optimization Recommend the most appropriate action to take Enterprise Data Sources Read new data on customers, events, etc. for continuous improvement Predictive Analytics Analyze data to provide insight and predict the future Acquisire Modelli predittivi Improve customer retention Grow share of wallet Minimize risk Increase customer satisfaction Enhance market share Prospects Customers Constituents Employees Students Patients Agire Dashboards Kiosks / Mobile CRM / ERP Sterling Apps
  30. 30. I modelli previsionaliI modelli previsionaliI modelli previsionaliI modelli previsionali Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile.
  31. 31. Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
  32. 32. Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
  33. 33. Dati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempo Il passato serve a prevedere il futuro Per costruire un modello efficace, i dati nel set di costruzione devono imitare il timeframe in cui il modello verrà applicato
  34. 34. Misurazione dellMisurazione dellMisurazione dellMisurazione dell’’’’efficaciaefficaciaefficaciaefficacia Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate Curva Lift: grafico che raffigura le prestazioni di un modello previsionale come funzione della dimensione del campione.
  35. 35. Il confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROC Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la seconda guerra mondiale, che volevano scovare i nemici utilizzando il radar durante le battaglie. Recentemente invece le curve ROC sono utilizzate anche in medicina, radiologia, psicologia, veterinaria e altri ambiti, come machine learning e data mining. La statistica di sintesi per valutare l’accuratezza di un modello predittivo è l’area sottesa alla curva (AUC)
  36. 36. DataDataDataData miningminingminingmining e fraud managemente fraud managemente fraud managemente fraud management Grandi quantità di dati Associazioni nascoste Trasformazione dei dati in risultati applicabili Modelli previsionali
  37. 37. 38 Stefano M. de Rossi smderossi@admind.it www.admind.it www.andreadimartino.wordpress.com www.facebook.com/admind

×