Introduzione al corsoDatawarehouse e fonti informative aziendaliDATA MININGLuca Molteni
Programma e obiettivi del corsoIl corso propone di introdurre il concetto di Data Mining e di presentare le principali tecniche statistiche che possono essere utilmente impiegate in quest’ambito per la soluzione di problemi aziendaliE’ strutturato in due principali moduli:Il primo è incentrato sul tema delle previsioni delle vendite: saranno presentati, a questo proposito, i metodi di decomposizione classica, di attenuazione esponenziale (Holt-Winters) e la modellistica ARIMA La seconda parte del corso è dedicata al Customer Relationship Management ed in particolare ai temi legati alla profilazione della clientela, all’analisi del comportamento d’acquisto dei consumatori e allo scoring della clientela
Programma e obiettivi del corsoNumerose sono le tecniche statistiche multivariate che è possibile impiegare per rispondere agli obiettivi conoscitivi indicatiIl corso di Data Mining propone: algoritmi di classificazione ad albero, regressione lineare multipla, reti neurali, mappe di Kohonen, market basket analysis, analisi discriminante lineare e regressione logisticaIl corso è caratterizzato da un alternarsi di lezioni di natura metodologica e di lezioni di natura più applicativa, mediante ricorso a una serie di casi aziendali e all’uso di specifici software diffusi sul mercato (SPSS e Modeler).
Materiale didatticoConsigli bibliograficiPaolo Giudici “Data Mining”, McGraw-Hill, 2005John Hanke & Dean Wichern “Business forecasting” – EightEdition, Prentice Hall, 2005
MODULO UNOPrevisioni delle venditeIl corso prevede lo studio di tecniche di previsione quantitative che si basano proprio sull’uso di dati storici, dai quali l’analista cerca di comprendere la struttura sottostante il fenomeno per poi utilizzarla a scopi previsiviAlla base dell’analisi delle serie storiche vi è l’assunzione secondo cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente continuino a esercitare effetti analoghi anche nel futuroSOFTWARE UTILIZZATIExcelSPSSClementine (reti neurali)
6Metodi e algoritmi di previsione
MODULO DUEData Mining	“Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile”“Processo di esplorazione ed analisi, in modo totalmente o parzialmente automatizzato, di una grande quantità di dati al fine di individuare schemi e regole significativi (non noti a priori).“ (Berry, Linoff, 1997)Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD) I temi di Data Mining saranno affrontati a partire dalla lezione numero 10
Knowledge Discovery in Database (KDD)	Il termineKDDindical’interoprocessodiestrazionedellaconoscenzada un database, dall’individuazionedegliobiettividi business inizialifinoall’applicazionedelleregoledecisionalitrovate	In quest’ambito, iltermine Data Mining è statoimpiegato per descrivere la fase del processodi KDD nelqualeglialgoritmidiapprendimentovengonoapplicatiaidatiNelcontestoaziendale, l’utilità del risultatosi traduce in un risultatodi business e, pertanto,ciòche distingue il Data Mining daun’analisistatistica, non è tanto la quantitàdidatichevengonoanalizzati o le particolaritecnichechevengonoimpiegate, quanto la necessitàdioperare in unamodalità in cui la conoscenzadellecaratteristiche del database, la metodologiadianalisi e le conoscenzedi business devonoessereintegrateKnowledge Discovery in Database (KDD)Fare Data Mining significa quindi seguire un processo metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l’analisi, fino all’applicazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica	Da un punto di vista operativo, il Data Mining è un processo di analisi dei dati, consistente in una serie di attività che vanno dalla definizione degli obiettivi dell’analisi, all’elaborazione dei dati, fino all’interpretazione e valutazione dei risultati
Knowledge Discovery in Database (KDD)
Data Warehouse e fonti informative aziendaliL’implementazione corretta di metodologie di Data Mining non è sufficiente per garantire il raggiungimento di risultati attendibili e duraturi nel tempo  vale la regola del “garbage in - garbage out”: per quanto un modello sia corretto e affinato non potrà mai sopperire alla scarsa correttezza/distorsione delle informazioni fornite in input al modelloA monte dei modelli ci deve essere perciò un’ambiente dati robusto eaffidabile per evitare che informazioni errate in ingresso conducano e risultati altrettanto erratiTale ambiente è identificabile nel Data Warehouse (DWH), ossia in un unico, completo e consistente “contenitore” di dati ottenuti da fonti eterogenee, costruito per gli utenti finali in modo che essi possano realizzare analisi finalizzate al raggiungimento degli obiettivi di business preposti
Data Warehouse e fonti informative aziendaliIl Data Warehausing si configura quindi come quel processo volto alla raccolta e alla gestione di dati da diverse fonti informative aziendali con il fine di rispondere alle diverse domande di businessIl risultato di tale processo è un ambiente dati (Bill Inmon, 1996):Integrato: le diverse fonti confluiscono in un unico “contenitore” omogeneo al suo internoOrientato ai soggetti: il DWH incentrato sui principali temi d’interesse aziendale (clienti, prodotti, canali, etc.) e non sulle singole applicazioni/processi (vendite, prestiti, traffico in uscita, etc.)Non volatile: i dati contenuti nel DWH sono soggetti ad aggiornamenti periodici (generalmente mensili), che ne determinano la crescita continua, ma di fatto sono dati “statici” e non modificabili dagli utenti finali (accesso solo in lettura)Variabile nel tempo: i dati archiviati nel DWH rappresentano una “fotografia” periodica della situazione dell’aziendale e coprono un orizzonte temporale di diversi anni (storicità estesa)
Data Warehouse: ArchitetturaSistemiERP (Enterprise Resource Planning)ProcessiETL(Estrazione,Trasformazione eCaricamento)Ambienti e Motore delData Warehouse  Database OperazionaliDatiEsterniMetadati (informazioni sui dati: tipo, origine, utilizzo, etc.)Fonti informative aziendaliQuery & ReportingData Mining
Data Warehouse:i Data MartNelle aziende più grandi e articolate, l’ambiente centrale del DWH può essere suddiviso in più Data Mart, ossia in sotto ambienti alimentati dal DWH e dedicati ad una singola funzione aziendale: I DM, essendo pensati per una particolare dimensione aziendale, sono ambienti più piccoli (costituiscono una aggregazione e/o selezione dei dati del DWH) e focalizzati sulle esigenze specifiche degli utenti di quella funzioneData WarehouseData Mart 1MarketingData Mart 3…Data Mart 2Finanza
Data Warehouse vs. Database OperazionaliI Database Operazionali (o Transazionali) sono ambienti..Orientati ai singoli processi aziendali
Utilizzati per l’operatività quotidiana dell’azienda (transazioni, produzione, contatti, …)
Contengono in maniera dettagliata i dati attuali dell’azienda (aggiornamento real-time)
I dati sono normalizzati (non presentano ridondanze) ma la sintesi delle informazioni non è immediata in quanto richiede ulteriori passaggiIl Data Warehouse è un ambiente..Orientato ai centri d’interesse dell’azienda
Utilizzato per analizzare il business (OLAP, Reporting, Data Mining) a supporto dei processi decisionali
Contiene in maniera aggregata i dati storici dell’azienda secondo fotografie
I dati sono denormalizzati (presentano ridondanze) ma la sintesi delle informazioni è immediataData Warehousein sintesi..Ambiente dati a supporto delle decisionimanagerialiKnowledgeDiscovery in DatabaseTante fonti eterogenee racchiuse in un unico contenitoreEstrazione, esplorazione ed analisi dei dati finalizzata al businessIntegratoSubject-orientedNon VolatilePianificazionestrategie di medio-lungo periodoCreazionevantaggio competitivoOttimizzazione dei processi
Data MiningObiettivi e TecnicheMarket basket analysisGRANDE DISTRIBUZIONE		WEBMININGClick stream analysisWEBMININGDescrizione e sintesiProfiling eSegmentazioneFidelizzazione e abbandono (Retention e Churn)Propensione e ScoringRisk management
Data MiningEsempio 1: Market Basket Analysis e GDOLa MBA indaga quanto l’acquisto di un prodotto influenzi l’acquisto di un altro (o anche quanto l’acquisto in un reparto porti poi all’acquisto in un altro reparto) e permette di capire:quali combinazioni di prodotto sono vendute
quando sono vendute
in quale sequenzaQueste informazioni permettono di capire i prodotti più profittevoli e incoraggiare l’acquisto di prodotti che potrebbero essere altrimenti poco visti o difficili da ricordare per il consumatore.Per le analisi svolte a livello di reparto le implicazioni sono sulla vicinanza o lontananza di reparti che per i consumatori, in base al loro comportamento, sono connessiUtilizzando i risultati della MBA, i manager della GDO possono:mirare le strategie promozionali
trovare la gestione ottimale dei reparti e/o dei prodotti sugli scaffali (category management)Data MiningEsempio 1: Market Basket AnalysisLa MBA svolta su più livelli (reparto, categoria, prodotto, marca) può comportare diverse implicazioni nelle scelte promozionali: le regole danno informazioni su associazioni tra antecedente e conseguente. In particolare, rilevate con l’analisi tali associazioni, non andranno promozionati sia antecedente/i che conseguente perché una promozione dell’antecedente potrebbe portare ad aumenti di vendita del conseguenteQuali combinazioni di prodotto sono vendute
Quando sono vendute

Data Mining

  • 1.
    Introduzione al corsoDatawarehousee fonti informative aziendaliDATA MININGLuca Molteni
  • 2.
    Programma e obiettividel corsoIl corso propone di introdurre il concetto di Data Mining e di presentare le principali tecniche statistiche che possono essere utilmente impiegate in quest’ambito per la soluzione di problemi aziendaliE’ strutturato in due principali moduli:Il primo è incentrato sul tema delle previsioni delle vendite: saranno presentati, a questo proposito, i metodi di decomposizione classica, di attenuazione esponenziale (Holt-Winters) e la modellistica ARIMA La seconda parte del corso è dedicata al Customer Relationship Management ed in particolare ai temi legati alla profilazione della clientela, all’analisi del comportamento d’acquisto dei consumatori e allo scoring della clientela
  • 3.
    Programma e obiettividel corsoNumerose sono le tecniche statistiche multivariate che è possibile impiegare per rispondere agli obiettivi conoscitivi indicatiIl corso di Data Mining propone: algoritmi di classificazione ad albero, regressione lineare multipla, reti neurali, mappe di Kohonen, market basket analysis, analisi discriminante lineare e regressione logisticaIl corso è caratterizzato da un alternarsi di lezioni di natura metodologica e di lezioni di natura più applicativa, mediante ricorso a una serie di casi aziendali e all’uso di specifici software diffusi sul mercato (SPSS e Modeler).
  • 4.
    Materiale didatticoConsigli bibliograficiPaoloGiudici “Data Mining”, McGraw-Hill, 2005John Hanke & Dean Wichern “Business forecasting” – EightEdition, Prentice Hall, 2005
  • 5.
    MODULO UNOPrevisioni dellevenditeIl corso prevede lo studio di tecniche di previsione quantitative che si basano proprio sull’uso di dati storici, dai quali l’analista cerca di comprendere la struttura sottostante il fenomeno per poi utilizzarla a scopi previsiviAlla base dell’analisi delle serie storiche vi è l’assunzione secondo cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente continuino a esercitare effetti analoghi anche nel futuroSOFTWARE UTILIZZATIExcelSPSSClementine (reti neurali)
  • 6.
    6Metodi e algoritmidi previsione
  • 7.
    MODULO DUEData Mining “PerData Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile”“Processo di esplorazione ed analisi, in modo totalmente o parzialmente automatizzato, di una grande quantità di dati al fine di individuare schemi e regole significativi (non noti a priori).“ (Berry, Linoff, 1997)Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD) I temi di Data Mining saranno affrontati a partire dalla lezione numero 10
  • 8.
    Knowledge Discovery inDatabase (KDD) Il termineKDDindical’interoprocessodiestrazionedellaconoscenzada un database, dall’individuazionedegliobiettividi business inizialifinoall’applicazionedelleregoledecisionalitrovate In quest’ambito, iltermine Data Mining è statoimpiegato per descrivere la fase del processodi KDD nelqualeglialgoritmidiapprendimentovengonoapplicatiaidatiNelcontestoaziendale, l’utilità del risultatosi traduce in un risultatodi business e, pertanto,ciòche distingue il Data Mining daun’analisistatistica, non è tanto la quantitàdidatichevengonoanalizzati o le particolaritecnichechevengonoimpiegate, quanto la necessitàdioperare in unamodalità in cui la conoscenzadellecaratteristiche del database, la metodologiadianalisi e le conoscenzedi business devonoessereintegrateKnowledge Discovery in Database (KDD)Fare Data Mining significa quindi seguire un processo metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l’analisi, fino all’applicazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica Da un punto di vista operativo, il Data Mining è un processo di analisi dei dati, consistente in una serie di attività che vanno dalla definizione degli obiettivi dell’analisi, all’elaborazione dei dati, fino all’interpretazione e valutazione dei risultati
  • 9.
  • 10.
    Data Warehouse efonti informative aziendaliL’implementazione corretta di metodologie di Data Mining non è sufficiente per garantire il raggiungimento di risultati attendibili e duraturi nel tempo  vale la regola del “garbage in - garbage out”: per quanto un modello sia corretto e affinato non potrà mai sopperire alla scarsa correttezza/distorsione delle informazioni fornite in input al modelloA monte dei modelli ci deve essere perciò un’ambiente dati robusto eaffidabile per evitare che informazioni errate in ingresso conducano e risultati altrettanto erratiTale ambiente è identificabile nel Data Warehouse (DWH), ossia in un unico, completo e consistente “contenitore” di dati ottenuti da fonti eterogenee, costruito per gli utenti finali in modo che essi possano realizzare analisi finalizzate al raggiungimento degli obiettivi di business preposti
  • 11.
    Data Warehouse efonti informative aziendaliIl Data Warehausing si configura quindi come quel processo volto alla raccolta e alla gestione di dati da diverse fonti informative aziendali con il fine di rispondere alle diverse domande di businessIl risultato di tale processo è un ambiente dati (Bill Inmon, 1996):Integrato: le diverse fonti confluiscono in un unico “contenitore” omogeneo al suo internoOrientato ai soggetti: il DWH incentrato sui principali temi d’interesse aziendale (clienti, prodotti, canali, etc.) e non sulle singole applicazioni/processi (vendite, prestiti, traffico in uscita, etc.)Non volatile: i dati contenuti nel DWH sono soggetti ad aggiornamenti periodici (generalmente mensili), che ne determinano la crescita continua, ma di fatto sono dati “statici” e non modificabili dagli utenti finali (accesso solo in lettura)Variabile nel tempo: i dati archiviati nel DWH rappresentano una “fotografia” periodica della situazione dell’aziendale e coprono un orizzonte temporale di diversi anni (storicità estesa)
  • 12.
    Data Warehouse: ArchitetturaSistemiERP(Enterprise Resource Planning)ProcessiETL(Estrazione,Trasformazione eCaricamento)Ambienti e Motore delData Warehouse Database OperazionaliDatiEsterniMetadati (informazioni sui dati: tipo, origine, utilizzo, etc.)Fonti informative aziendaliQuery & ReportingData Mining
  • 13.
    Data Warehouse:i DataMartNelle aziende più grandi e articolate, l’ambiente centrale del DWH può essere suddiviso in più Data Mart, ossia in sotto ambienti alimentati dal DWH e dedicati ad una singola funzione aziendale: I DM, essendo pensati per una particolare dimensione aziendale, sono ambienti più piccoli (costituiscono una aggregazione e/o selezione dei dati del DWH) e focalizzati sulle esigenze specifiche degli utenti di quella funzioneData WarehouseData Mart 1MarketingData Mart 3…Data Mart 2Finanza
  • 14.
    Data Warehouse vs.Database OperazionaliI Database Operazionali (o Transazionali) sono ambienti..Orientati ai singoli processi aziendali
  • 15.
    Utilizzati per l’operativitàquotidiana dell’azienda (transazioni, produzione, contatti, …)
  • 16.
    Contengono in manieradettagliata i dati attuali dell’azienda (aggiornamento real-time)
  • 17.
    I dati sononormalizzati (non presentano ridondanze) ma la sintesi delle informazioni non è immediata in quanto richiede ulteriori passaggiIl Data Warehouse è un ambiente..Orientato ai centri d’interesse dell’azienda
  • 18.
    Utilizzato per analizzareil business (OLAP, Reporting, Data Mining) a supporto dei processi decisionali
  • 19.
    Contiene in manieraaggregata i dati storici dell’azienda secondo fotografie
  • 20.
    I dati sonodenormalizzati (presentano ridondanze) ma la sintesi delle informazioni è immediataData Warehousein sintesi..Ambiente dati a supporto delle decisionimanagerialiKnowledgeDiscovery in DatabaseTante fonti eterogenee racchiuse in un unico contenitoreEstrazione, esplorazione ed analisi dei dati finalizzata al businessIntegratoSubject-orientedNon VolatilePianificazionestrategie di medio-lungo periodoCreazionevantaggio competitivoOttimizzazione dei processi
  • 21.
    Data MiningObiettivi eTecnicheMarket basket analysisGRANDE DISTRIBUZIONE WEBMININGClick stream analysisWEBMININGDescrizione e sintesiProfiling eSegmentazioneFidelizzazione e abbandono (Retention e Churn)Propensione e ScoringRisk management
  • 22.
    Data MiningEsempio 1:Market Basket Analysis e GDOLa MBA indaga quanto l’acquisto di un prodotto influenzi l’acquisto di un altro (o anche quanto l’acquisto in un reparto porti poi all’acquisto in un altro reparto) e permette di capire:quali combinazioni di prodotto sono vendute
  • 23.
  • 24.
    in quale sequenzaQuesteinformazioni permettono di capire i prodotti più profittevoli e incoraggiare l’acquisto di prodotti che potrebbero essere altrimenti poco visti o difficili da ricordare per il consumatore.Per le analisi svolte a livello di reparto le implicazioni sono sulla vicinanza o lontananza di reparti che per i consumatori, in base al loro comportamento, sono connessiUtilizzando i risultati della MBA, i manager della GDO possono:mirare le strategie promozionali
  • 25.
    trovare la gestioneottimale dei reparti e/o dei prodotti sugli scaffali (category management)Data MiningEsempio 1: Market Basket AnalysisLa MBA svolta su più livelli (reparto, categoria, prodotto, marca) può comportare diverse implicazioni nelle scelte promozionali: le regole danno informazioni su associazioni tra antecedente e conseguente. In particolare, rilevate con l’analisi tali associazioni, non andranno promozionati sia antecedente/i che conseguente perché una promozione dell’antecedente potrebbe portare ad aumenti di vendita del conseguenteQuali combinazioni di prodotto sono vendute
  • 26.