Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

introduzione al data mining

on

  • 2,875 views

introduzione al data mining, definizione, storia e principali tecniche descrittive e predittive powered by admind

introduzione al data mining, definizione, storia e principali tecniche descrittive e predittive powered by admind

Statistics

Views

Total Views
2,875
Views on SlideShare
2,875
Embed Views
0

Actions

Likes
0
Downloads
54
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

introduzione al data mining introduzione al data mining Presentation Transcript

  • Data Mining e modelliprevisionaliRoma 13 settembre 2011
  • PARTIAMO
  • Che cos’è il Data Mining cos’èProcesso di estrazione di conoscenzada banche dati di grandi dimensionitramite l’applicazione di algoritmi cheindividuano le associazioni “nascoste”tra le informazioni e le rendono visibili.Processo di esplorazione ed analisi,automatico o semi-automatico, diun’ampia mole di dati al fine discoprire modelli e regole significative
  • Perchè Perchè usare gli strumenti di data miningGli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza disfruttare il patrimonio informativo contenuto nelle grandi raccolte di datiche si hanno a disposizione. valoreAcquisire informazioni non è decisioneun problema se si pensa allaricchezza delle sorgenti di conoscenzadati accessibili sul web oattraverso Data Warehouse informazioneaziendali, il problema èutilizzarle. dati volume
  • Il processo di estrazione di conoscenza (KDD) Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD)Essenza del Data Mining è la trasformazione dei dati in risultati applicabili
  • Il data mining è la somma di discipline diverse Database Statistica Technology Machine Learning Data Mining Visualizzazione Information Science Altre discipline
  • Una prospettiva storica Raccolta dati, modelli gerarchici e relazionali Diffusione DBMS Modelli relazionali commerciali predittivi 1990- 2000-1960 1970 1980 2000 2011 Modello relazionale dei dati, Data mining e primi DMBS relazionali data warehousing
  • Una prospettiva storica Raccolta Accesso Query a Data Mining Modelli dati ai dati database predittivi 1990- 1990- 1960 1970 1980 2000 2000 Quanto ho Quanto ho Viste le vendite al Perché vendiamo Dove/a chi potròvenduto negli venduto al Nord nord, quale è il di più in alcune vendere di più? ultimi 3 anni lo scorso gennaio? dettaglio per città? città?
  • Il ciclo virtuoso del data mining Trasformazione in informazioni applicabili (actionable) con le tecniche del data mining Individuazionedei problemi e dei settori di business Azione per cui l’analisi può essere utile sulla base delle informazioni Misurazione Dei risultati ottenuti per avere info utili su come utilizzare al meglio i dati
  • Data Mining e Business IntelligenceLa business intelligence è un insieme di processi e sistemi che consentono ditrasformare i dati generati dalle attività aziendali in informazioni.Il data mining è una “tecnica” di Business Intelligence
  • Data Mining, Data Warehouse e Business Intelligence Mining, Ambiente dati a supporto Knowledge delle decisioni Discovery in manageriali Database Tante fonti eterogenee racchiuse in ununico contenitore Integrato Subject-oriented Non Volatile Pianificazione Creazione strategie di vantaggio medio-lungo competitivo Ottimizzazione periodo dei processi
  • Data Mining e OLAP OLAP Data Mining Analisi del contenuto “estrazione di conoscenza attraverso lo studio di (non banale, implicita, aggregazioni guidate nuova, potenzialmente dall’utente utile) da grandi quantità di informazioni” Cosa sta Perché sta succedendo succedendo
  • puo’ mining:Cosa puo’ fare il data mining: aree di applicazioni CLASSIFICAZIONE i dati disponibili vengonoData mining usati per creare un STIMA “diretto” modello che descriva una variabile PREVISIONE Data Mining RAGGRUPPAMENTO si cerca di stabilire unaData mining ben precisa relazione tra CLUSTERING “indiretto” tutte le variabili in gioco DESCRIZIONE VISUALIZZAZIONE
  • Contesto applicativo: obiettivi e tecniche ANALISI CLASSIFICAZIONE SEGMENTAZIONE PREVISONE ASSOCIAZIONI CLASSIFICAZIONEFRAUD DETECTIONCLUSTER ANALYSIS CREDIT SCORING CROSS SELLING SCORING PROMOZIONALE CHURN ANALYSIS
  • Contesto applicativo FIDELIZZAZIONE EFFICIENTE DISTRIBUZIONE RISORSE UP/ CROSS SELLING INDIVIDUAZIONE DATA TARGET MINING REMUNERATIVI AUMENTO PRODUTTIVITA’ RIDUZIONE OPPORTUNITA’ RISCHI FRODE SUB CRESCITA DI POINT
  • Contesto applicativo: alcuni esempi
  • Contesto tecnico: 3 pilastri del data mining TECNICHE I DATI MODELLI EFFICACI DATA MINING
  • Tecniche diverse per obiettivi diversiLe tecniche di data mining non sono altro che un generaleapproccio alla soluzione dei problemi ed esistono molti modi perrealizzarle.Ognuno di questi modi rappresenta un diverso algoritmo. La tecnica è l’approccio concettuale che porta tecnica all’estrazione delle informazioni dai dati È il la formula che viene utilizzata per algoritmo l’implementazione di una tecnica
  • Tecniche diverse per obiettivi diversiIl data mining puo’ essere descrittivo, o prescrittivo in baseall’obiettivo dell’analisi che si sta svolgendo DESCRITTIVO L’obiettivo è approfondire la conoscenza di cio’ che avviene all’interno dei dati e quindi del mondo che rispecchiano. TECNICHE Le azioni non possono essere automatizzate PRESCRITTIVO L’obiettivo principale è l’automazione del processo decisionale ottenuta creando un modello in grado di dare una previsione o stimare un valore
  • Tre tecniche di data mining CLUSTERINGCon il termine cluster si intende un gruppo di unità simili o vicine traloro, dal punto di vista della posizione o della composizione K-Means Method
  • Tre tecniche di data mining ALBERI DECISIONALIUn albero di decisione viene utilizzato per classificare le istanze digrandi quantità di dati (per questo viene anche chiamato albero diclassificazione). In questo ambito un albero di decisione descrive unastruttura ad albero dove i nodi foglia rappresentano le classificazioni ele ramificazioni linsieme delle proprietà che portano a quelleclassificazioni.
  • Tre tecniche di data mining RETI NEURALILe reti neurali rappresentano la tecnica più nota di data mining, maforse anche la meno compresa. Ciò è dovuto in gran parte allaterminologia delle scienze cognitive da cui deriva il suo nome.L’obiettivo dei primi modelli era infatti replicare il comportamentodelle cellule nervose umane.Le reti neurali dal punto di vista del data mining non sono altro cheun metodo per applicare un modello a dati storici al fine di poterricavar classificazioni o previsioni.
  • Modelli di reti neurali
  • Contesto tecnico: 3 pilastri del data mining TECNICHE I DATI MODELLI EFFICACI DATA MINING
  • mining:I 3 pilastri del data mining: datiIl secondo pilastro su cui poggia il data mining è rappresentato daidati utilizzati nel processo: senza di essi, il data mining non sarebbepossibile e potrebbe contare solamente su qualche intuizione.I dati assumono le forme più disparate, sono di tipo diversi e sitrovano in molti sistemi; sono “quasi sempre” sporchi, incompleti etalvolta indecifrabili. I dati sono la materia prima del data mining
  • Contesto tecnico: 3 pilastri del data mining TECNICHE I DATI MODELLI EFFICACI DATA MINING
  • mining:I 3 pilastri del data mining: modellazioneIl terzo pilastro è rappresentato da una serie di competenze dimodellistica necessarie per costruire modelli.Il data mining viene applicato per lo più per costruire modelliprevisionali che rilevano pattern significativi sui dati accumulati alfine di fare previsioni relative ad esiti futuri.Lo scopo dei modelli è l’utilizzo delle previsioni per prenderedecisioni più informate.
  • 2 stili di data miningI modelli predittivi realizzabili con gli strumenti di data mining sonoessenzialmente di due tipi: SUPERVISIONATO E’ un approccio top-down applicabile quando sappiamo che cosa stiamo cercando, ed assume spesso la forma di STILI DI DATA modelli previsionali. MINING NON SUPERVISIONATO E’ un approccio bottom–up in cui si lascia che i dati stessi indichino un risultato. Spetta all’utente stabilirne l’importanza.
  • The Predictive Analytics Process: Modelli predittivi RecommendAnalyze data to the mostprovide insight and appropriatepredict the future action to take Predictive Analytics Acquisire Agire Improve customer retention Customers Constituents Grow share of wallet Dashboards Prospects Employees Read new data on customers, Minimize risk Kiosks / Mobile Students Patients events, etc. for Increase customer satisfaction CRM / ERP continuous Enhance market share Sterling Apps improvement Enterprise Decision Data Sources Optimization 29
  • I modelli previsionaliIl modello predittivo è rappresentato da una black box: a volte noninteressa il meccanismo di funzionamento ma interessa la miglioreprevisione possibile.
  • Costruzione dei modelli previsionali
  • Costruzione dei modelli previsionali
  • Dati dipendenti dal tempoIl passato serve a prevedere il futuro Per costruire un modello efficace, i dati nel set di costruzione devono imitare il timeframe in cui il modello verrà applicato
  • Misurazione dell’efficacia dell’Matrice di Confusione: matrice che permette di individuare qualitra le previsioni fornite dal modello previsionale siano corrette equali errateCurva Lift: grafico che raffigura le prestazioni di un modelloprevisionale come funzione della dimensione del campione.
  • Il confronto tra modelli predittivi: le curve ROCLe curve ROC furono utilizzate per la prima volta da alcuniingegneri elettrici durante la seconda guerra mondiale, che volevanoscovare i nemici utilizzando il radar durante le battaglie.Recentemente invece le curve ROC sono utilizzate anche inmedicina, radiologia, psicologia, veterinaria e altri ambiti, comemachine learning e data mining. La statistica di sintesi per valutare l’accuratezza di un modello predittivo è l’area sottesa alla curva (AUC)
  • Data mining e fraud managementGrandi quantità di datiAssociazioni nascosteTrasformazione dei dati in risultati applicabiliModelli previsionali
  • www.admind.itwww.andreadimartino.wordpress.comwww.facebook.com/admind Stefano M. de Rossi smderossi@admind.it 38