Data Mining

3,277 views
3,109 views

Published on

Slide utilizzate nel corso di Data Mining presso l'università Bocconi

Published in: Business
1 Comment
2 Likes
Statistics
Notes
  • it is the good presentation
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total views
3,277
On SlideShare
0
From Embeds
0
Number of Embeds
22
Actions
Shares
0
Downloads
88
Comments
1
Likes
2
Embeds 0
No embeds

No notes for slide

Data Mining

  1. 1. Introduzione al corso<br />Datawarehouse e fonti informative aziendali<br />DATA MINING<br />Luca Molteni<br />
  2. 2. Programma e obiettivi del corso<br />Il corso propone di introdurre il concetto di Data Mining e di presentare le principali tecniche statistiche che possono essere utilmente impiegate in quest’ambito per la soluzione di problemi aziendali<br />E’ strutturato in due principali moduli:<br />Il primo è incentrato sul tema delle previsioni delle vendite: saranno presentati, a questo proposito, i metodi di decomposizione classica, di attenuazione esponenziale (Holt-Winters) e la modellistica ARIMA <br />La seconda parte del corso è dedicata al Customer Relationship Management ed in particolare ai temi legati alla profilazione della clientela, all’analisi del comportamento d’acquisto dei consumatori e allo scoring della clientela<br />
  3. 3. Programma e obiettivi del corso<br />Numerose sono le tecniche statistiche multivariate che è possibile impiegare per rispondere agli obiettivi conoscitivi indicati<br />Il corso di Data Mining propone: algoritmi di classificazione ad albero, regressione lineare multipla, reti neurali, mappe di Kohonen, market basket analysis, analisi discriminante lineare e regressione logistica<br />Il corso è caratterizzato da un alternarsi di lezioni di natura metodologica e di lezioni di natura più applicativa, mediante ricorso a una serie di casi aziendali e all’uso di specifici software diffusi sul mercato (SPSS e Modeler). <br />
  4. 4. Materiale didattico<br /><ul><li>Consigli bibliografici</li></ul>Paolo Giudici “Data Mining”, McGraw-Hill, 2005<br />John Hanke & Dean Wichern “Business forecasting” – EightEdition, Prentice Hall, 2005<br />
  5. 5. MODULO UNOPrevisioni delle vendite<br />Il corso prevede lo studio di tecniche di previsione quantitative che si basano proprio sull’uso di dati storici, dai quali l’analista cerca di comprendere la struttura sottostante il fenomeno per poi utilizzarla a scopi previsivi<br />Alla base dell’analisi delle serie storiche vi è l’assunzione secondo cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente continuino a esercitare effetti analoghi anche nel futuro<br />SOFTWARE UTILIZZATI<br />Excel<br />SPSS<br />Clementine (reti neurali)<br />
  6. 6. 6<br />Metodi e algoritmi di previsione<br />
  7. 7. MODULO DUEData Mining<br /> “Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile”<br />“Processo di esplorazione ed analisi, in modo totalmente o parzialmente automatizzato, di una grande quantità di dati al fine di individuare schemi e regole significativi (non noti a priori).“ (Berry, Linoff, 1997)<br />Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD) <br />I temi di Data Mining saranno affrontati a partire dalla lezione numero 10<br />
  8. 8. Knowledge Discovery in Database (KDD)<br /> Il termineKDDindical’interoprocessodiestrazionedellaconoscenzada un database, dall’individuazionedegliobiettividi business inizialifinoall’applicazionedelleregoledecisionalitrovate<br /> In quest’ambito, iltermine Data Mining è statoimpiegato per descrivere la fase del processodi KDD nelqualeglialgoritmidiapprendimentovengonoapplicatiaidati<br /><ul><li>Nelcontestoaziendale, l’utilità del risultatosi traduce in un risultatodi business e, pertanto,ciòche distingue il Data Mining daun’analisistatistica, non è tanto la quantitàdidatichevengonoanalizzati o le particolaritecnichechevengonoimpiegate, quanto la necessitàdioperare in unamodalità in cui la conoscenzadellecaratteristiche del database, la metodologiadianalisi e le conoscenzedi business devonoessereintegrate</li></li></ul><li>Knowledge Discovery in Database (KDD)<br />Fare Data Mining significa quindi seguire un processo metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l’analisi, fino all’applicazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica<br /> Da un punto di vista operativo, il Data Mining è un processo di analisi dei dati, consistente in una serie di attività che vanno dalla definizione degli obiettivi dell’analisi, all’elaborazione dei dati, fino all’interpretazione e valutazione dei risultati<br />
  9. 9. Knowledge Discovery in Database (KDD)<br />
  10. 10. Data Warehouse e fonti informative aziendali<br />L’implementazione corretta di metodologie di Data Mining non è sufficiente per garantire il raggiungimento di risultati attendibili e duraturi nel tempo  vale la regola del “garbage in - garbage out”: per quanto un modello sia corretto e affinato non potrà mai sopperire alla scarsa correttezza/distorsione delle informazioni fornite in input al modello<br />A monte dei modelli ci deve essere perciò un’ambiente dati robusto eaffidabile per evitare che informazioni errate in ingresso conducano e risultati altrettanto errati<br />Tale ambiente è identificabile nel Data Warehouse (DWH), ossia in un unico, completo e consistente “contenitore” di dati ottenuti da fonti eterogenee, costruito per gli utenti finali in modo che essi possano realizzare analisi finalizzate al raggiungimento degli obiettivi di business preposti<br />
  11. 11. Data Warehouse e fonti informative aziendali<br />Il Data Warehausing si configura quindi come quel processo volto alla raccolta e alla gestione di dati da diverse fonti informative aziendali con il fine di rispondere alle diverse domande di business<br />Il risultato di tale processo è un ambiente dati (Bill Inmon, 1996):<br />Integrato: le diverse fonti confluiscono in un unico “contenitore” omogeneo al suo interno<br />Orientato ai soggetti: il DWH incentrato sui principali temi d’interesse aziendale (clienti, prodotti, canali, etc.) e non sulle singole applicazioni/processi (vendite, prestiti, traffico in uscita, etc.)<br />Non volatile: i dati contenuti nel DWH sono soggetti ad aggiornamenti periodici (generalmente mensili), che ne determinano la crescita continua, ma di fatto sono dati “statici” e non modificabili dagli utenti finali (accesso solo in lettura)<br />Variabile nel tempo: i dati archiviati nel DWH rappresentano una “fotografia” periodica della situazione dell’aziendale e coprono un orizzonte temporale di diversi anni (storicità estesa)<br />
  12. 12. Data Warehouse: Architettura<br />Sistemi<br />ERP <br />(Enterprise Resource Planning)<br />ProcessiETL<br />(Estrazione,<br />Trasformazione e<br />Caricamento)<br />Ambienti e Motore<br /> del<br />Data Warehouse <br />Database <br />Operazionali<br />DatiEsterni<br />Metadati <br />(informazioni sui dati: tipo, origine, utilizzo, etc.)<br />Fonti informative aziendali<br />Query & <br />Reporting<br />Data <br />Mining<br />
  13. 13. Data Warehouse:i Data Mart<br />Nelle aziende più grandi e articolate, l’ambiente centrale del DWH può essere suddiviso in più Data Mart, ossia in sotto ambienti alimentati dal DWH e dedicati ad una singola funzione aziendale:<br /><ul><li> I DM, essendo pensati per una particolare dimensione aziendale, sono ambienti più piccoli (costituiscono una aggregazione e/o selezione dei dati del DWH) e focalizzati sulle esigenze specifiche degli utenti di quella funzione</li></ul>Data Warehouse<br />Data Mart 1<br />Marketing<br />Data Mart 3<br />…<br />Data Mart 2<br />Finanza<br />
  14. 14. Data Warehouse vs. Database Operazionali<br />I Database Operazionali (o Transazionali) sono ambienti..<br /><ul><li>Orientati ai singoli processi aziendali
  15. 15. Utilizzati per l’operatività quotidiana dell’azienda (transazioni, produzione, contatti, …)
  16. 16. Contengono in maniera dettagliata i dati attuali dell’azienda (aggiornamento real-time)
  17. 17. I dati sono normalizzati (non presentano ridondanze) ma la sintesi delle informazioni non è immediata in quanto richiede ulteriori passaggi</li></ul>Il Data Warehouse è un ambiente..<br /><ul><li>Orientato ai centri d’interesse dell’azienda
  18. 18. Utilizzato per analizzare il business (OLAP, Reporting, Data Mining) a supporto dei processi decisionali
  19. 19. Contiene in maniera aggregata i dati storici dell’azienda secondo fotografie
  20. 20. I dati sono denormalizzati (presentano ridondanze) ma la sintesi delle informazioni è immediata</li></li></ul><li>Data Warehousein sintesi..<br />Ambiente dati a supporto delle decisioni<br />manageriali<br />KnowledgeDiscovery in Database<br />Tante fonti eterogenee racchiuse in un unico contenitore<br />Estrazione, esplorazione ed analisi dei dati finalizzata al business<br />Integrato<br />Subject-oriented<br />Non Volatile<br />Pianificazione<br />strategie di medio-lungo periodo<br />Creazione<br />vantaggio competitivo<br />Ottimizzazione dei processi<br />
  21. 21. Data MiningObiettivi e Tecniche<br />Market basket analysis<br />GRANDE DISTRIBUZIONE<br /> WEBMINING<br />Click stream analysis<br />WEBMINING<br />Descrizione e sintesi<br />Profiling eSegmentazione<br />Fidelizzazione e abbandono <br />(Retention e Churn)<br />Propensione e Scoring<br />Risk management<br />
  22. 22. Data MiningEsempio 1: Market Basket Analysis e GDO<br />La MBA indaga quanto l’acquisto di un prodotto influenzi l’acquisto di un altro (o anche quanto l’acquisto in un reparto porti poi all’acquisto in un altro reparto) e permette di capire:<br /><ul><li>quali combinazioni di prodotto sono vendute
  23. 23. quando sono vendute
  24. 24. in quale sequenza</li></ul>Queste informazioni permettono di capire i prodotti più profittevoli e incoraggiare l’acquisto di prodotti che potrebbero essere altrimenti poco visti o difficili da ricordare per il consumatore.<br />Per le analisi svolte a livello di reparto le implicazioni sono sulla vicinanza o lontananza di reparti che per i consumatori, in base al loro comportamento, sono connessi<br />Utilizzando i risultati della MBA, i manager della GDO possono:<br /><ul><li>mirare le strategie promozionali
  25. 25. trovare la gestione ottimale dei reparti e/o dei prodotti sugli scaffali (category management)</li></li></ul><li>Data MiningEsempio 1: Market Basket Analysis<br />La MBA svolta su più livelli (reparto, categoria, prodotto, marca) può comportare diverse implicazioni nelle scelte promozionali: le regole danno informazioni su associazioni tra antecedente e conseguente. In particolare, rilevate con l’analisi tali associazioni, non andranno promozionati sia antecedente/i che conseguente perché una promozione dell’antecedente potrebbe portare ad aumenti di vendita del conseguente<br /><ul><li>Quali combinazioni di prodotto sono vendute
  26. 26. Quando sono vendute
  27. 27. In quale sequenza</li></li></ul><li>Data MiningEsempio 1: Market Basket Analysis<br />La MBA a livello di prodotto fornisce utili insight sulle relazioni di prodotti (anche all’interno di una stessa categoria, ma con diverse marche) per le scelte di composizione dello scaffale. Non solo: prodotti tra loro connessi potranno essere posizionati vicini o, al contrario, separati, in modo tale da invogliare e stimolare il cliente ad acquistare diversi prodotti<br />Le regole a livello di categoria forniscono evidenza statistica utile da adottare in ottica di Category Management, per razionalizzare e gestire la varietà di un assortimento o di una gamma di prodotti (facilitando la riduzione delle ridondanze ed il potenziamento delle alternative di scelta per il consumatore sulla base al suo comportamento di acquisto)<br /><ul><li>Quali combinazioni di prodotto sono vendute
  28. 28. Quando sono vendute
  29. 29. In quale sequenza</li></ul>Le regole a livello di reparto, possono avere implicazioni importanti a livello di layout del punto vendita. Reparti connessi andranno posizionati vicini o lontani<br />Le regole a livello di marca offrono informazioni sulle relazioni tra marche utili nelle scelte di composizione dello scaffale<br />
  30. 30. Data MiningEsempio 2: Customer Churn e settore Energy<br />L’anticipazione del fenomeno dell’abbandono da parte dei propri clienti rappresenta per le imprese un elemento importante nel complesso delle azioni volte a stabilire un rapporto privilegiato e duraturo nel tempo con la clientela medesima<br />L’implementazione di modelli di Churn porta allo sviluppo di un processo operativo che prevede:<br />l’assegnazione ad ogni cliente di una <br />probabilità di abbandono su un orizzonte temporale definito<br />la selezione di una lista di nominativi ad “alto rischio”<br />l’attivazione di un’azione volta alla retention, che utilizza i canali ritenuti più opportuni per contattare i suddetti nominativi<br />la formulazione di proposte di prodotti/ servizi in grado di soddisfare le esigenze fino a quel momento non soddisfatte<br /> <br />la verifica a posteriori della riduzione ottenuta nel tasso di “Customer Attrition” <br />
  31. 31. Data MiningEsempio 2: Customer Churn e settore Energy<br /><ul><li>Il Problema
  32. 32. Gli utilizzatori sono alla ricerca di fornitori in grado di dimostrarsi flessibili nell’offerta ed efficienti nella gestione dei problemi tecnici
  33. 33. L’insoddisfazione per queste ed altre dimensioni, in un contesto dove le barriere all’uscita si stanno sempre di più assottigliando, spinge l’utente a rivolgersi verso altri fornitori
  34. 34. A seguito della liberalizzazione del mercato, il livello di Customer Churn del settore a livello europeo si è spinto oltre il 15% e L’Italia è un dei paesi dove il fenomeno è più accentuato
  35. 35. Obiettivi
  36. 36. Fornire una stima dell’abbandono dei clienti attraverso la previsione della loro propensione a migrare verso i competitor
  37. 37. Implementazione di campagne di retention efficaci in modo da prevenire il churn prima che esso si manifesti
  38. 38. Creare un modello di Customer Lifetime Value che, basandosi anche sulla propensione all’abbandono stimata, permetta di introdurre una valida profilazione della clientela per riconoscere i clienti ad alto valore e focalizzare su di essi specifici programmi di loyalty</li></li></ul><li>Data MiningEsempio 2: Customer Churn e settore Energy<br /><ul><li>Soluzioni
  39. 39. Dopo aver raccolto internamente i dati sui clienti che nel passato hanno cambiato fornitore, è possibile creare un modello di scoring ad hoc che relazioni il fenomeno dell’abbandono alle altre informazioni presenti nel database aziendale (tipo di contratto stipulato, utilizzo, rapporti con l’assistenza tecnica, altre problematicità, etc.)
  40. 40. I modelli generati attraverso algoritmi complessi (come reti neurali, alberi di classificazione e regressione logistica) permettono di classificare sia i clienti acquisiti sia i nuovi in funzione della loro probabilità di abbandono
  41. 41. Viene attribuito lo score stimato a tutto il database aziendale in modo da poter monitorare con continuità le campagne di retention in atto e creare benchmark per verificare l’efficacia delle stesse</li></li></ul><li>Data MiningEsempio 2: Customer Churn e settore Energy<br /><ul><li>Risultati
  42. 42. Targeting della clientela offerte mirate e ottimizzazione delle campagne
  43. 43. Riduzione del tasso di abbandono
  44. 44. Valorizzazione dei clienti più profittevoli e incremento della marginalità
  45. 45. Il peggior 20% di clienti (in termini di probabilità di abbandono stimata dal modello) comprende quasi il 60% degli effettivi churners
  46. 46. Raggiungendo la minoranza dei clienti con la più alta probabilità di abbandono l’azienda potrà, ottimizzando i costi di contatto, offrire prodotti e servizi che soddisferanno i bisogni che non erano stati soddisfatti fino a quel momento, prevenendo così il futuro abbandono</li></li></ul><li>Data MiningEsempio 3: Sviluppo sistemi di Rating per il settore bancario<br /><ul><li>La misurazione del rischio di credito ha conosciuto in questi anni una forte evoluzione e, a seguito degli accordi di Basilea 2, una crescita dell’attenzione da parte degli operatori del settore
  47. 47. Gli algoritmi di Data Mining forniscono strumenti per la misurazione del rischio di credito che risultano fondamentali per ottenere in maniera rigorosa una grande molteplicità di informazioni e soluzioni statisticamente robuste, da coniugare con l'esperienza e la valutazione umana nei processi di decisione
  48. 48. In particolare, le tecniche di regressione multipla (lineare o logistica a seconda della tipologia del fenomeno oggetto di studio) sono frequentemente utilizzate dagli analisti del settore per stimare e prevedere le dimensioni principali connesse al rischio di credito quali la PD (probabilità di insolvenza o default), l’EAD (esposizione al momento del default) e LGD (tasso di perdita atteso in caso di insolvenza)</li></li></ul><li>Data MiningEsempio 3: Sviluppo sistemi di Rating per il settore bancario<br /><ul><li>Attraverso gli algoritmi di Data Mining è possibile costruire, per esempio, modelli di previsione della Probabilità di insolvenza (PD) della clientela e suddividere il proprio parco clienti in classi sulla base di tale probabilità</li></ul>La suddivisione della clientela in classi di rating fornisce ai manager della banca uno dei principali strumenti per..<br />Scegliere l'assetto ottimale dei processi di affidamento e di controllo del rischio di credito <br />Ottenere indicazioni fondamentali per la determinazione della quota di accantonamento patrimoniale da prevedere, evitando errori di valutazione che si ripercuoterebbero direttamente sul cliente<br />

×