Il Data Mining
Del termine Data Mining sono state date diverse ed utili definizioni      Che cosa è il Data Mining Il Data Mining (noto a...
Logica del Data Mining   <ul><li>Nel Data Mining si mettono insieme sia tecniche esplorative sia confermative in una logic...
    Tecniche di analisi <ul><li>Nel Data Mining, per scoprire le relazioni nascoste tra i dati e costruire di conseguenza ...
Le tecniche di Data mining sono un’estensione dell’analisi statistica, ma si differenziano per il diverso approccio al tra...
  Flusso di un processo di Data Mining Identificazione problema business Predisposizione dati input Valutazione ambiente I...
Le attività delle fasi della metodologia di mining <ul><li>Scelta degli indicatori </li></ul><ul><li>Definizione del livel...
Il processo adottato per lo sviluppo della prima fase di Assessment della Metodologia si basa su una continua interazione ...
Le fasi successive servono per definire precisamente fattibilità/priorità/compatibilità economica Gruppo  Dati Fase 1:   D...
Modello di Business <ul><li>In modo formale, un modello è una formula matematica che spiega l’effetto degli input sugli ou...
Predisposizione della base dati in input Consiste nella creazione della matrice dei dati disegnata sulla base del modello ...
Considerazioni <ul><li>Assenza sulle basi di dati delle informazioni necessarie ad  una teoria consolidata del consumatore...
<ul><li>Le motivazioni che portano all’estrazione di un campione rappresentativo si basano sulle seguenti considerazioni: ...
<ul><li>  </li></ul><ul><li>Bisogna quindi consolidare i dati e risolvere il più possibile i problemi individuati nella fa...
  Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione de...
<ul><li>Identificato il problema di business e preparati i dati da esplorare bisogna scegliere quale tecnica si vuole appl...
Algoritmo demografico <ul><li>I record sono confrontati a coppie rispetto al valore di ogni singolo campo </li></ul><ul><l...
Algoritmo gerarchico   Fatturato mese <£100000 >£100000 <5yr >5yr Posizione geografica Grande centro Piccolo centro Utiliz...
Kohonen Maps Le reti di Kohonen, conosciute anche come self-organizing map, nascono per il riconoscimento di suoni ed imma...
… alcuni esempi
Per consentire di chiarire che tipo di prodotti/servizi vengano utilizzati  e come i clienti li utilizzino è possibile ana...
Il Clustering è in generale il punto di partenza del processo di sviluppo degli Indicatori Predittivi in quanto capace di ...
La Cluster Analysis si basa sulla logica  di Knowledge Discovery che dai dati conduce alla generazione e validazione delle...
<ul><li>La segmentazione della clientela consentirà non solo di individuare gruppi omogenei di clienti ma anche di verific...
Il LifeTime Value è l’indicatore di redditività attesa da ciascun cliente, e permette  il riconoscimento dei clienti su cu...
La definizione dell’indicatore di LifeTime Value si presta a 3 differenti strategie di analisi,  ciascuna delle quali pres...
Il data mining è una grande proposta di aiuto per le organizzazioni a scoprire i pattern nascosti nei loro dati. Comunque,...
Upcoming SlideShare
Loading in …5
×

Seminario Di Data Mining

2,449 views

Published on

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,449
On SlideShare
0
From Embeds
0
Number of Embeds
34
Actions
Shares
0
Downloads
66
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Seminario Di Data Mining

  1. 1. Il Data Mining
  2. 2. Del termine Data Mining sono state date diverse ed utili definizioni   Che cosa è il Data Mining Il Data Mining (noto anche come Knowledge Discovery in Databases – KDD) è l’insieme di tecniche innovative, sviluppate nel campo della statistica e del “machine learning”, utilizzante per analizzare i dati presenti in azienda, impiegando strumenti di esplorazione e modellazione per cercare informazioni utili, nascoste e non evidenti, all’interno di grandi volumi di dati, con un processo iterativo e interattivo e metterle in una forma facilmente comprensibile all’uomo.     Il Data Mining è l’ ”automatica” estrazione di pattern di informazioni da dati storici, che permettono alle compagnie di focalizzare i più importanti aspetti del loro business. Tali informazioni sono rivelatrici di cose che non si conoscono o ancora più impensabili.   Il termine “Data Mining” è basato sull’analogia delle operazioni dei minatori che “scavano” all’interno delle miniere grandi quantità di materiale di poco valore per trovare l’oro. Nel Data Mining, l’ ”oro” è l’informazione, precedentemente sconosciuta o indiscernibile, il materiale di poco valore sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati.
  3. 3. Logica del Data Mining <ul><li>Nel Data Mining si mettono insieme sia tecniche esplorative sia confermative in una logica ciclica: </li></ul><ul><li>si sceglie cosa studiare, </li></ul><ul><li>si costruisce un modello matematico che tenti di spiegare gli impatti del variare del campione di input sui risultati, </li></ul><ul><li>si verifica la sua robustezza e la sua correttezza, se non è soddisfacente ad una prima analisi si raffina il modello e si procede nuovamente al suo test, e così via fino a quando si ottengono dei risultati soddisfacenti. </li></ul><ul><li>alla fine, quando il modello è sufficientemente accurato, si rende disponibile a tutti gli utenti interessati. </li></ul><ul><li>LE FASI </li></ul><ul><li>Nella fase di Problem (problema di business) si passano in rivista le informazioni di business o gli indicatori chiave che identificano il problema che si vuole conoscere meglio. E’ anche la fase di assessment della metodologia </li></ul><ul><li>La fase di Model assolve al processo di comprensione delle relazioni tra i diversi fattori che influenzano il problema in esame per ottenere delle conoscenze approfondite. </li></ul><ul><li>Infine, la fase di Plan comprende il processo di crescita della conoscenza ottenuta dall’analisi di fatti storici e dall’utilizzo del modello costruito nella fase di Model per formulare le linee guida che deve adottare l’azienda in riferimento al problema studiato. </li></ul>
  4. 4.    Tecniche di analisi <ul><li>Nel Data Mining, per scoprire le relazioni nascoste tra i dati e costruire di conseguenza dei modelli che le rappresentano, esistono due “famiglie” di tecniche di analisi o approcci: quelle di verifica e quelle di indagine o rispettivamente </li></ul><ul><li>approccio top-down </li></ul><ul><li>Nell’approccio top-down, chi effettua l’analisi dei dati utilizzando la teoria statistica cerca durante l’esplorazione di trovare conferme a fatti che ipotizza o che già conosce (ad esempio quali fattori hanno prodotto un risultato conosciuto), o di ampliare la sua conoscenza su nuovi aspetti di un fenomeno che già conosce in parte. A questo scopo si utilizzano le tecniche statistiche di clustering, l’analisi fattoriale, i metodi previsionali, per cui l’approccio risulta difficile da applicare se gli utenti non hanno buone conoscenze statistiche. </li></ul><ul><li>approccio bottom-up </li></ul><ul><li>Nell’approccio bottom-up l’utente si mette alla ricerca di informazioni utili che ignora “scavando” fra i dati e i collegamenti tra loro in modo non aprioristico, per costruire ipotesi, ad esempio quali fattori sono le cause più probabili che producono un certo risultato. In questo caso è lo strumento (con la tecnologia delle reti neurali, degli alberi decisionali o altro ) che deve essere in grado di guidare l’utente nel modo migliore nell’esplorazione dei dati alla ricerca di fatti utili. </li></ul>
  5. 5. Le tecniche di Data mining sono un’estensione dell’analisi statistica, ma si differenziano per il diverso approccio al trattamento dei dati Le differenze di approccio nell’analisi dei dati Grado di indeterminatezza Numerosità dei casi <ul><li>permette di analizzare grandi volumi di dati (Gb - Tb) </li></ul><ul><li>basato sulla filosofia dell' &quot;apprendimento&quot; </li></ul><ul><li>utilizzo estensivo di modelli complessi e cross-validation </li></ul><ul><li>utilizzo di modelli semplici, con scarse implicazioni di problemi computazionali </li></ul><ul><li>presenta una componente soggettiva dovuta alla scelta del modello </li></ul><ul><li>enfatizza le proprietà asintotiche per samples di grandi dimensioni </li></ul>Σ %
  6. 6.   Flusso di un processo di Data Mining Identificazione problema business Predisposizione dati input Valutazione ambiente IT Revisione START Valutazione modello/i Tool di Data Mining Monitoraggio Utilizzo modello nelle analisi Validazione esterna Scelta modello finale Dispiegamento modello Raffinamento modello/i Preparaz. dati analisi Costruzione modello/i
  7. 7. Le attività delle fasi della metodologia di mining <ul><li>Scelta degli indicatori </li></ul><ul><li>Definizione del livello dell’indicatore </li></ul><ul><li>Definizione dei dati di contesto rilevanti </li></ul><ul><li>Scelta delle variabili </li></ul><ul><li>Acquisizione campioni casuali di Clienti per training e per validazione del modello (dimensione significativa) </li></ul><ul><li>Scelta dell’algoritmo predittivo (regressione logistica, RBF, rete neurale ‘backward propagation’) </li></ul><ul><li>Definizione del modello predittivo (processo iterativo con selezione variabili e loro trasformazioni): </li></ul><ul><ul><li>Training del modello </li></ul></ul><ul><ul><li>Validazione sui dati DWH </li></ul></ul><ul><ul><li>Valutazione dei risultati </li></ul></ul>Utenti Scelta Indicatori Def. Livello indicatore Def. Dati contesto Scelta variabili Acq. Campioni Clienti Tuning algoritmo predittivo Def. Modello predittivo -Training -Validazione -Valutazione
  8. 8. Il processo adottato per lo sviluppo della prima fase di Assessment della Metodologia si basa su una continua interazione con l’utente Utenti Finali Fase 1: preparazione ed acquisizione di documenti sui requisiti prodotto. Fase 2: Elaborazione di documenti di “Proposta Metodologica”, in risposta ai requirements esposti Fase 3: Presentazione, verbalizzazione e discussione dei documenti prodotti con l’utente Fase 4: Integrazione delle modifiche proposte, approfondimento dei punti di discussione Specifiche di modello Fase di Assessment della Metodologia
  9. 9. Le fasi successive servono per definire precisamente fattibilità/priorità/compatibilità economica Gruppo Dati Fase 1: Definizione delle tipologie di dati necessari per ciascun indicatore Fase 2: Incontro con il gruppo dati per l’analisi dei dati disponibili Fase 3: Valutazione di fattibilità in relazione alla disponibilità dati ed ai “costi” connessi Fase 4: Integrazione della analisi di fattibilità con le priorità degli utenti e le compatibilità di progetto Specifiche dati Decisione sugli indicatori da implementare Studio di Fattibilità
  10. 10. Modello di Business <ul><li>In modo formale, un modello è una formula matematica che spiega l’effetto degli input sugli output. Come tale, può essere raffinato e messo a punto per una maggiore precisione attraverso un processo iterativo di comprensione dei dati che sono alla sua base. </li></ul><ul><li>Il modello è quindi la topologia delle relazioni che mappa quali condizioni di input hanno influenza su specifiche condizioni di output e come alcune relazioni possono influenzare significativamente altre relazioni. </li></ul><ul><li>Una volta che il modello è stato creato e raffinato ad un accettabile grado di accuratezza, esso può essere usato in due modi: </li></ul><ul><li>descrittivo </li></ul><ul><li>permettendo agli utenti finali di studiare le relazioni scoperte tra i dati per migliorare la comprensione dei fattori chiave che influenzano il business. </li></ul><ul><li>predittivo </li></ul><ul><li>determinando la più probabile condizione di output associata agli input forniti. </li></ul>Il modello è la rappresentazione delle relazioni chiave che sono scoperte durante il processo di Data Mining.
  11. 11. Predisposizione della base dati in input Consiste nella creazione della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti. Questa matrice viene indicata in vari modi: da Data Mart delle Analisi (DMA), a Data Mart del Data Mining a tabelle per il Data Mining. Il modello dati impone sicuramente delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria per i successivi processi di analisi quantitativa. Il rilascio del DMA è subordinato ad un’attività di controllo di qualità dei contenuti informativi: Controllo formale per l’individuazione delle variabili non utilizzabili, variabili fisicamente esistenti ma non implementate     Controllo sostanziale per la verifica del contenuto delle variabili implementate, presenza di modalità non previste   Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dell’attività di analisi. In questi casi è necessario riciclare sulla fase di individuazione delle fonti, individuazione di nuove e/o procedendo alle opportune trasformazioni.
  12. 12. Considerazioni <ul><li>Assenza sulle basi di dati delle informazioni necessarie ad una teoria consolidata del consumatore </li></ul><ul><li>Limitata profondità storica nella base informativa disponibile </li></ul><ul><li>La base informativa utile e disponibile per l’analisi comprende </li></ul><ul><ul><ul><ul><ul><li>Dati sull’Anagrafica </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Dati sulle Componenti Geografiche </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Dati sul Comportamento (recency) </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Dati sull’Utilizzo del Prodotto (frequency) </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Dati sulle Transazioni (monetary value) </li></ul></ul></ul></ul></ul>alcuni elementi che possono influire sull’efficacia dell’analisi Per ogni cliente devono essere identificati un insieme di misure necessarie alla costruzione degli indici comportamentali e predittivi
  13. 13. <ul><li>Le motivazioni che portano all’estrazione di un campione rappresentativo si basano sulle seguenti considerazioni: </li></ul><ul><li>l’entità dell’errore campionario è tenuta sotto controllo dalla teoria dei campioni; </li></ul><ul><li>i migliori tempi di elaborazione; </li></ul><ul><li>l a suddivisione dei dati in tre (o più) sottoinsiemi per il training, la validazione e il test del modello; </li></ul><ul><li>avere a disposizione più basi di confronto per la costruzione e per la scelta dei modelli di sintesi. </li></ul><ul><li>  </li></ul><ul><li>In particolare lavorare su un sotto-insieme rappresentativo dell’universo di riferimento permette di tenere sotto controllo il rischio di costruire modelli auto-esplicativi: la bontà di una regola consiste nella sua capacità discriminante, ma anche nella sua robustezza. In questo caso si dice che la regola è “ over-fitted ” o si è verificato un “ overtraining ”. </li></ul><ul><li>Quando il modello è stato addestrato intensamente sul training set può apprendere il noise dei dati in esso contenuti invece dei sottostanti pattern. Per questa ragione è indispensabile un secondo insieme di dati “nuovo” per la validazione. </li></ul><ul><li>Il maggiore timore dell’utilizzo della base campionaria rispetto all’intera popolazione è di perdere cruciali informazioni per la costruzione di un buon modello. Comunque, statisticamente si può avere un’ottima confidenza se ci sono abbastanza dati e l’effetto della ricerca (come una propensione all’acquisto o un buon rischio di credito) è sufficientemente prevalente, il tal caso si ha un buon modello. </li></ul>Campionamento In generale è opportuno impostare l’attività di analisi su base campionaria, soltanto in alcune circostanze è consigliabile lavorare sull’intera popolazione di riferimento.
  14. 14. <ul><li>  </li></ul><ul><li>Bisogna quindi consolidare i dati e risolvere il più possibile i problemi individuati nella fase di esplorazione. </li></ul><ul><li>Solitamente si individuano quattro categorie di problemi: </li></ul><ul><ul><ul><ul><ul><li>valori mancanti </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>dati sporchi </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Outliers </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>dati incerti </li></ul></ul></ul></ul></ul>In questa fase si studia il comportamento dei dati per l’individuazione di andamenti non omogenei e degli outliers. Preprocessing e scouting dei dati Consolidamento e cleaning Viene “costruito” un database con dati “omogenei” che saranno alla base della costruzione del modello.
  15. 15.   Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione delle informazioni contenute nei dati: una combinazione di variabili può portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione è inoltre dettata anche da esigenze di sintesi: l’applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabilità essenziale del fenomeno indagato. Sostanzialmente le trasformazioni possono essere di due tipi:   1.        Trasformazioni sulla distribuzione dei dati : modificazioni matematiche alla distribuzione delle variabili.   2.        Creazioni di dati : creazione di nuove variabili dalla combinazione di variabili esistenti per eseguire tassi, differenze e così via.   Per le analisi statistiche, la fase della trasformazione dei dati è critica poiché alcune metodologie statistiche richiedono che i dati siano linearmente collegate ad una variabile obiettivo, normalmente distribuiti e liberi dagli outliers. Mentre i metodi dell’intelligenza artificiale e del machine learning non richiedono rigorosamente che i dati siano normalmente distribuiti o lineari, e alcuni metodi – gli alberi decisionali, per esempio – non richiedono che gli outliers siano trattati preventivamente. Questa è la maggiore differenza tra le analisi statistiche e il data mining. Gli algoritmi del machine learning hanno la capacità di trattare automaticamente con distribuzioni non lineari e non normali, anche se in molti casi gli algoritmi lavoreranno meglio se questi criteri sono verificati. Trasformazione dei dati Dopo che i dati sono stati “puliti”, trattati tutti i valori non validi e mancanti e valutata la consistenza dei dati si è pronti per effettuare le trasformazioni necessarie.
  16. 16. <ul><li>Identificato il problema di business e preparati i dati da esplorare bisogna scegliere quale tecnica si vuole applicare per analizzare i dati. In molte situazioni un analista può usare una varietà di tecniche, ma ogni tecnica guida l’analisi in una particolare direzione e rappresenta i risultati in modo differente. </li></ul><ul><li>Le varie tecniche di analisi, chiamate anche approcci, modelli o funzioni, in accordo alle categorie di applicazioni in cui possono essere usate, sono raggruppate in sei classi principali come segue: </li></ul><ul><li>  </li></ul><ul><ul><ul><ul><ul><li>Classificazioni, </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Regressioni, </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Serie storiche </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Clustering, </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Associazioni, </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Reti neurali </li></ul></ul></ul></ul></ul>Tecniche di analisi per la costruzione del modello A E D C B E Σ %
  17. 17. Algoritmo demografico <ul><li>I record sono confrontati a coppie rispetto al valore di ogni singolo campo </li></ul><ul><li>il numero di campi che hanno valori simili/dissimili determina il grado con cui i record sono giudicati simili/dissimili </li></ul><ul><li>questi possono essere considerati come voti pro e contro la similarità di due record </li></ul><ul><li>I segmenti sono costruiti confrontando ogni record con i segmenti costruiti fino a quel momento </li></ul><ul><li>un record viene attribuito al segmento per il quale è massima la differenza tra i voti pro e contro l'assegnazione del record </li></ul><ul><li>Il processo e' iterativo </li></ul><ul><li>dopo una prima assegnazione di tutti i record, nei passi successivi si prova ad assegnare ogni record ad ogni altro segmento e si valuta se riassegnarlo ad un segmento differente da quello di appartenenza </li></ul><ul><li>nuovi segmenti possono essere creati durante tutto il processo </li></ul><ul><li>Il numero di segmenti viene determinato automaticamente </li></ul><ul><li>Si basa sul concetto di similarita', non su quello di distanza </li></ul><ul><li>Gestisce sia le variabili categoriche che quelle continue </li></ul><ul><li>Veloce e scalabile, lavora bene su grosse moli di data </li></ul>
  18. 18. Algoritmo gerarchico Fatturato mese <£100000 >£100000 <5yr >5yr Posizione geografica Grande centro Piccolo centro Utilizzo servizi HIgh Low Low HIgh Fatturato mese Posizione geografica Grande centro Anzianità cliente <£50000 >£50000 Piccolo centro >5yr <5yr Utilizzo servizi HIgh Low Churner Churner marginale Non churner
  19. 19. Kohonen Maps Le reti di Kohonen, conosciute anche come self-organizing map, nascono per il riconoscimento di suoni ed immagini: producono una &quot;mappa delle caratteristiche&quot; Per ogni record nella base dati, ogni segmento compete per l'assegnazione del record concordemente con i propri parametri. I parametri dei segmenti vengono modificati ad ogni iterazione sui dati. Si differenziano dalle altri reti neurali per la topologia e per la non applicabilita' del metodo di apprendimento backpropagation 0.1 0.2 0.7 0.2 0.6 0.6 0.1 0.9 0.4 OUTPUT età Ultima fattura Prod. Acquistati INPUT Margine
  20. 20. … alcuni esempi
  21. 21. Per consentire di chiarire che tipo di prodotti/servizi vengano utilizzati e come i clienti li utilizzino è possibile analizzare la popolazione effettuando due clustering distinti, riferiti ai comportamenti generali ed ai pattern di consumo L’accurata segmentazione della clientela consente di conoscere i propri clienti, di definire nuovi 'prodotti/tariffe/sconti‘, di utilizzare i risultati ottenuti per identificare le azioni migliori di “customer retention” ed attuare la riduzione del churn e delle morositá. Modello 1 - descrive e classifica i Clienti individuando diverse tipologie di comportamento e di utilizzo del servizio Modello 2 - descrive e classifica i Clienti in riferimento ai diversi pattern di consumo Ai fini di un’analisi dinamica dei segmenti si renderà necessaria la revisione dei modelli di clustering in funzione di cambiamenti nello scenario proprio del settore, di azioni intraprese dai competitors, e dall’emergere di nuovi trends
  22. 22. Il Clustering è in generale il punto di partenza del processo di sviluppo degli Indicatori Predittivi in quanto capace di fornire una prima comprensione della Customer base Le informazioni ottenute dalla segmentazione sono poi utilizzate per completare e ottimizzare l’analisi degli Indicatori Predittivi Applicando metodologie di mining è possibile classificare i clienti in gruppi omogenei per differenti stili di comportamenti e consumi
  23. 23. La Cluster Analysis si basa sulla logica di Knowledge Discovery che dai dati conduce alla generazione e validazione delle ipotesi Step di analisi <ul><li>Fase 1 - Unsupervised learning su campione </li></ul><ul><li>Preparazione e trasformazione dei dati </li></ul><ul><li>Selezione delle variabili di input per il modello di segmentazione </li></ul><ul><li>Campionamento </li></ul><ul><li>Cluster Analysis </li></ul>Fase 2 – Supervised learning su campione Identificazione delle regole di assegnazione ai cluster Fase 3 – Applicazione su tutta la popolazione Proiezione sull’intera popolazione
  24. 24. <ul><li>La segmentazione della clientela consentirà non solo di individuare gruppi omogenei di clienti ma anche di verificare l’evolversi del loro comportamento nel tempo </li></ul>
  25. 25. Il LifeTime Value è l’indicatore di redditività attesa da ciascun cliente, e permette il riconoscimento dei clienti su cui investire maggiormente Il Life Time Value è il valore attuale netto dei margini che il cliente potrà generare per l’azienda nel corso della sua vita economica. L’indicatore ha lo scopo di permettere all’utilizzatore finale di svolgere: <ul><ul><li>Il Ranking della base clienti in funzione di LTV </li></ul></ul><ul><ul><li>ovvero sarà possibile effettuare una classificazione dei clienti in base al valore futuro atteso dei margini </li></ul></ul>
  26. 26. La definizione dell’indicatore di LifeTime Value si presta a 3 differenti strategie di analisi, ciascuna delle quali presenta un livello di complessità diverso Modello 1: tecniche di forecasting classiche, basate sull’utilizzo di medie mobili / exponential smoothing . <ul><li>Modello 2: </li></ul><ul><li>suddivisione della popolazione in differenti segmenti omogenei; </li></ul><ul><li>stima di differenti funzioni per i singoli segmenti; </li></ul><ul><li>conduzione di due distinti esercizi di stima per M(t) e P(t); </li></ul><ul><li>costruzione dell’ indicatore LTV come sommatoria di prodotti M(t) P(t). </li></ul>Modello 3: utilizzo di reti neurali, basandosi sul modello di stima elaborato per l’indicatore di churn. Preciso ed efficace, per quanto più complesso; permette di utilizzare informazioni supplementari derivanti dalla cluster analysis e dall’indicatore di churn. Soggetto a problematiche inerenti la possibile correlazione negli errori di stima tra M(t) e P(t). Semplice e poco oneroso; produce risultati eccellenti in relazione al contesto di analisi, se supportato da un’alta stabilità nel tempo del ranking dei clienti in termini di margine . Σ % A E D C B E Σ % Gen-Feb ‘99 Mar-Apr ‘99
  27. 27. Il data mining è una grande proposta di aiuto per le organizzazioni a scoprire i pattern nascosti nei loro dati. Comunque, gli strumenti di data mining devono essere guidati da utenti che conoscono il business, i dati e la natura generale dei complessi metodi analitici. Realistiche aspettative possono raccogliere risultati attraverso un ampio range di applicazioni, dal miglioramento delle entrate alla riduzione dei costi. Costruire i modelli non è solo un passo nella scoperta della conoscenza. Il “migliore” modello è spesso trovato dopo la costruzione di modelli di diversi tipi e provando varie tecnologie e/o algoritmi Considerazioni

×