SlideShare a Scribd company logo
1 of 14
UN APPROCCIO DI REVERSE-
ENGINEERING PER
INDIVIDUARE I FATTI
ALL’INTERNO DI SORGENTI
DATI RELAZIONALI
Presentato da
Andrea Carmè Cesena, 21 ottobre 2010
DATI E INFORMAZIONI
Sorgenti dati
relazionali
Data Warehouse
Informazioni
Modello multidimensionale
Modello relazionale
-Fatti
-Dimensioni
- Relazioni
- Attributi
PROGETTAZIONE CONCETTUALE
Una progettazione concettuale accurata è fondamentale
per la costruzione di un Data Warehouse
Ben documentato
Soddisfare i bisogni
degli utenti del business
Analisi delle sorgenti relazionali
Individuazione degli elementi
multidimensionali
Scopo
PROGETTAZIONE GUIDATA DAI
DATI
INDIVIDUAZIONE DEGLI ELEMENTI MD
Linee
guida
Glossari Vendite Ciclo
Fertilità
APPROCCI MANUALI
APPROCCI AUTOMATIZZATI
S_CCCP
Documentazione
sorgenti dati
Focalizzati sulle
dimensioni
Vendite Ciclo
Fertilità
S_CCCP
PROBLEMI
PROBLEMI
I fatti sono gli elementi multidimensionali più importanti dal
momento che corrispondono agli eventi di interesse del business
INDIVIDUAZIONE DEI FATTI
APPROCCIO PER FORMALIZZARE
L’INDIVIDUAZIONE DEI FATTI
Documentazione
sorgenti dati
Basato su euristiche
CWM Relazionale Profilo UML
CARATTERISTICHE
Basato e guidato
dai modelli
Vendite Ciclo
Fertilità
S_CCCP
UFRO TAHE Fertilidad
APPROCCIO PER INDIVIDUARE I FATTI
ESTRAZIONE ELEMENTI RELAZIONALI
Dizionario
dati CWM relazionale
CWM relazionale
Richiesta la
partecipazione
degli utenti
INDIVIDUAZIONE STRUTTURE MD
Store City
R = Select idCity from Store where idCity is not null
P = Select distinct idCity from R
Store City
M-1
0 0
INDIVIDUAZIONE STRUTTURE MD
MISURE EURISTICHE UTILIZZATE
Ratio degli attributi numerici: Le misure sono sempre numeriche e
le tabelle con un alto ratio sono più adatte a ricoprire il ruolo di fatto
Numero di istanze: Le tabelle con il maggior numero di istanze
potrebbero corrispondere a fatti
Grado d’ingresso: Le tabelle con poche o nessuna chiavi importate
in ingresso potrebbero corrispondere a fatti
SOGLIA: > 25-esimo percentile
SOGLIA: > 75-esimo percentile
SOGLIA: < 0 o 1
INDIVIDUAZIONE STRUTTURE MD
F
D
D
D
1-1 F
M-1
M-1
M-1
M-1
M-1
DERIVAZIONE SCHEMA MD
F
D
D
D
1-1
F
M-1
M-1
M-1
M-1
M-1
Modello CWM marcato
Schema concettuale multidimensionaleTrasformazione formale tra modelli
CONCLUSIONI
Approccio per formalizzare il processo di
identificazione dei fatti a partire da
sorgenti dati relazionali
Non richiede la documentazione delle
sorgenti dati relazionali
Basato su misure euristiche
Bassa complessità computazionale
~ 30 secondi
(130 tabelle, 140 FKs)
CARATTERISTICHE
SVILUPPI FUTURI
Derivare anche le altre strutture
multidimensionali: gerarchie delle dimensioni
Considerare anche le sorgenti non-relazionali
Considerare anche misure euristiche basate sulle
caratteristiche semantiche delle sorgenti
DOMANDE?
UN APPROCCIO DI REVERSE-
ENGINEERING PER
INDIVIDUARE I FATTI
ALL’INTERNO DI SORGENTI
DATI RELAZIONALI
Andrea Carmè Cesena, 21 ottobre 2010

More Related Content

Similar to Carme Thesis Presentation

Decision Support System (DSS) per la Supply Chain
Decision Support System (DSS) per la Supply ChainDecision Support System (DSS) per la Supply Chain
Decision Support System (DSS) per la Supply ChainManager.it
 
Presentazione erp billing crm e commerce
Presentazione erp billing crm e commercePresentazione erp billing crm e commerce
Presentazione erp billing crm e commerceERP - Billing & CRM
 
Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...
Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...
Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...Concordia Srl
 
Dalla Guest Journey alla Business Intelligence.
Dalla Guest Journey alla Business Intelligence.Dalla Guest Journey alla Business Intelligence.
Dalla Guest Journey alla Business Intelligence.Hospitality Rest@rt Tropea
 
Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013
Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013
Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013Pragma Management Systems S.r.l.
 
Product Information Tour 2019
Product Information Tour 2019Product Information Tour 2019
Product Information Tour 2019massimominguzzi
 
Smau Bologna 2018 - Unioncamere pt.2
Smau Bologna 2018 - Unioncamere pt.2Smau Bologna 2018 - Unioncamere pt.2
Smau Bologna 2018 - Unioncamere pt.2SMAU
 
Engineering: la soluzione ERP per la gestione completa della commessa, certif...
Engineering: la soluzione ERP per la gestione completa della commessa, certif...Engineering: la soluzione ERP per la gestione completa della commessa, certif...
Engineering: la soluzione ERP per la gestione completa della commessa, certif...EOS Solutions
 
Financial Relationship Services 18 Febbario Estratto
Financial Relationship Services   18 Febbario   EstrattoFinancial Relationship Services   18 Febbario   Estratto
Financial Relationship Services 18 Febbario Estrattorobandre
 
Progettazione Avanzata Cad 3D
Progettazione Avanzata Cad 3DProgettazione Avanzata Cad 3D
Progettazione Avanzata Cad 3DClaudia Miani
 
Sviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomestici
Sviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomesticiSviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomestici
Sviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomesticiguestd820c37
 
Migliorare le performance con un software di planning e scheduling
Migliorare le performance con un software di planning e schedulingMigliorare le performance con un software di planning e scheduling
Migliorare le performance con un software di planning e schedulingConcordia Srl
 
Windchill - Il PLM come leva strategica
Windchill - Il PLM come leva strategicaWindchill - Il PLM come leva strategica
Windchill - Il PLM come leva strategicaDedagroup
 
La Digital Transformation per il miglioramento continuo nella gestione delle ...
La Digital Transformation per il miglioramento continuo nella gestione delle ...La Digital Transformation per il miglioramento continuo nella gestione delle ...
La Digital Transformation per il miglioramento continuo nella gestione delle ...Talea Consulting Srl
 
Big data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccoltiBig data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccoltiDelta Sales
 
Presentazione ECOS 2014 - Evento Qlik - Visualize Your World
Presentazione ECOS 2014 - Evento Qlik - Visualize Your WorldPresentazione ECOS 2014 - Evento Qlik - Visualize Your World
Presentazione ECOS 2014 - Evento Qlik - Visualize Your WorldBusiness Insight
 
ID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI Orazio
ID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI OrazioID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI Orazio
ID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI OrazioServizi a rete
 
Creare valore e sviluppare business grazie all’Information Technology - Seren...
Creare valore e sviluppare business grazie all’Information Technology - Seren...Creare valore e sviluppare business grazie all’Information Technology - Seren...
Creare valore e sviluppare business grazie all’Information Technology - Seren...WHR Corporate
 
Serenissima Informatica - "Creare valore e sviluppare business grazie all' I...
Serenissima Informatica  - "Creare valore e sviluppare business grazie all' I...Serenissima Informatica  - "Creare valore e sviluppare business grazie all' I...
Serenissima Informatica - "Creare valore e sviluppare business grazie all' I...WHR Corporate
 

Similar to Carme Thesis Presentation (20)

Decision Support System (DSS) per la Supply Chain
Decision Support System (DSS) per la Supply ChainDecision Support System (DSS) per la Supply Chain
Decision Support System (DSS) per la Supply Chain
 
Presentazione erp billing crm e commerce
Presentazione erp billing crm e commercePresentazione erp billing crm e commerce
Presentazione erp billing crm e commerce
 
Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...
Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...
Conferenza Prof. Andrea Sianesi - Scenari e trend di evoluzione nel supply ch...
 
Dalla Guest Journey alla Business Intelligence.
Dalla Guest Journey alla Business Intelligence.Dalla Guest Journey alla Business Intelligence.
Dalla Guest Journey alla Business Intelligence.
 
Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013
Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013
Big data e nuova conoscenza aziendale_Paolo Pasini_Summit Italia 2013
 
Product Information Tour 2019
Product Information Tour 2019Product Information Tour 2019
Product Information Tour 2019
 
Smau Bologna 2018 - Unioncamere pt.2
Smau Bologna 2018 - Unioncamere pt.2Smau Bologna 2018 - Unioncamere pt.2
Smau Bologna 2018 - Unioncamere pt.2
 
Engineering: la soluzione ERP per la gestione completa della commessa, certif...
Engineering: la soluzione ERP per la gestione completa della commessa, certif...Engineering: la soluzione ERP per la gestione completa della commessa, certif...
Engineering: la soluzione ERP per la gestione completa della commessa, certif...
 
Financial Relationship Services 18 Febbario Estratto
Financial Relationship Services   18 Febbario   EstrattoFinancial Relationship Services   18 Febbario   Estratto
Financial Relationship Services 18 Febbario Estratto
 
Progettazione Avanzata Cad 3D
Progettazione Avanzata Cad 3DProgettazione Avanzata Cad 3D
Progettazione Avanzata Cad 3D
 
Sviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomestici
Sviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomesticiSviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomestici
Sviluppo di un\'applicazione OLAP per l\'analisi dei guasti di elettrodomestici
 
Migliorare le performance con un software di planning e scheduling
Migliorare le performance con un software di planning e schedulingMigliorare le performance con un software di planning e scheduling
Migliorare le performance con un software di planning e scheduling
 
Windchill - Il PLM come leva strategica
Windchill - Il PLM come leva strategicaWindchill - Il PLM come leva strategica
Windchill - Il PLM come leva strategica
 
La Digital Transformation per il miglioramento continuo nella gestione delle ...
La Digital Transformation per il miglioramento continuo nella gestione delle ...La Digital Transformation per il miglioramento continuo nella gestione delle ...
La Digital Transformation per il miglioramento continuo nella gestione delle ...
 
Big data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccoltiBig data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccolti
 
Presentazione ECOS 2014 - Evento Qlik - Visualize Your World
Presentazione ECOS 2014 - Evento Qlik - Visualize Your WorldPresentazione ECOS 2014 - Evento Qlik - Visualize Your World
Presentazione ECOS 2014 - Evento Qlik - Visualize Your World
 
ID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI Orazio
ID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI OrazioID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI Orazio
ID&A ad Ecomondo 2023 - Mercoledì novembre | GIUSTOLISI Orazio
 
Quale smartart?
Quale smartart?Quale smartart?
Quale smartart?
 
Creare valore e sviluppare business grazie all’Information Technology - Seren...
Creare valore e sviluppare business grazie all’Information Technology - Seren...Creare valore e sviluppare business grazie all’Information Technology - Seren...
Creare valore e sviluppare business grazie all’Information Technology - Seren...
 
Serenissima Informatica - "Creare valore e sviluppare business grazie all' I...
Serenissima Informatica  - "Creare valore e sviluppare business grazie all' I...Serenissima Informatica  - "Creare valore e sviluppare business grazie all' I...
Serenissima Informatica - "Creare valore e sviluppare business grazie all' I...
 

Carme Thesis Presentation

  • 1. UN APPROCCIO DI REVERSE- ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI Presentato da Andrea Carmè Cesena, 21 ottobre 2010
  • 2. DATI E INFORMAZIONI Sorgenti dati relazionali Data Warehouse Informazioni Modello multidimensionale Modello relazionale -Fatti -Dimensioni - Relazioni - Attributi
  • 3. PROGETTAZIONE CONCETTUALE Una progettazione concettuale accurata è fondamentale per la costruzione di un Data Warehouse Ben documentato Soddisfare i bisogni degli utenti del business Analisi delle sorgenti relazionali Individuazione degli elementi multidimensionali Scopo PROGETTAZIONE GUIDATA DAI DATI
  • 4. INDIVIDUAZIONE DEGLI ELEMENTI MD Linee guida Glossari Vendite Ciclo Fertilità APPROCCI MANUALI APPROCCI AUTOMATIZZATI S_CCCP Documentazione sorgenti dati Focalizzati sulle dimensioni Vendite Ciclo Fertilità S_CCCP PROBLEMI PROBLEMI I fatti sono gli elementi multidimensionali più importanti dal momento che corrispondono agli eventi di interesse del business
  • 5. INDIVIDUAZIONE DEI FATTI APPROCCIO PER FORMALIZZARE L’INDIVIDUAZIONE DEI FATTI Documentazione sorgenti dati Basato su euristiche CWM Relazionale Profilo UML CARATTERISTICHE Basato e guidato dai modelli Vendite Ciclo Fertilità S_CCCP UFRO TAHE Fertilidad
  • 7. ESTRAZIONE ELEMENTI RELAZIONALI Dizionario dati CWM relazionale CWM relazionale Richiesta la partecipazione degli utenti
  • 8. INDIVIDUAZIONE STRUTTURE MD Store City R = Select idCity from Store where idCity is not null P = Select distinct idCity from R Store City M-1 0 0
  • 9. INDIVIDUAZIONE STRUTTURE MD MISURE EURISTICHE UTILIZZATE Ratio degli attributi numerici: Le misure sono sempre numeriche e le tabelle con un alto ratio sono più adatte a ricoprire il ruolo di fatto Numero di istanze: Le tabelle con il maggior numero di istanze potrebbero corrispondere a fatti Grado d’ingresso: Le tabelle con poche o nessuna chiavi importate in ingresso potrebbero corrispondere a fatti SOGLIA: > 25-esimo percentile SOGLIA: > 75-esimo percentile SOGLIA: < 0 o 1
  • 11. DERIVAZIONE SCHEMA MD F D D D 1-1 F M-1 M-1 M-1 M-1 M-1 Modello CWM marcato Schema concettuale multidimensionaleTrasformazione formale tra modelli
  • 12. CONCLUSIONI Approccio per formalizzare il processo di identificazione dei fatti a partire da sorgenti dati relazionali Non richiede la documentazione delle sorgenti dati relazionali Basato su misure euristiche Bassa complessità computazionale ~ 30 secondi (130 tabelle, 140 FKs) CARATTERISTICHE
  • 13. SVILUPPI FUTURI Derivare anche le altre strutture multidimensionali: gerarchie delle dimensioni Considerare anche le sorgenti non-relazionali Considerare anche misure euristiche basate sulle caratteristiche semantiche delle sorgenti
  • 14. DOMANDE? UN APPROCCIO DI REVERSE- ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI Andrea Carmè Cesena, 21 ottobre 2010

Editor's Notes

  1. Buongiorno a tutti, sono Andrea Carmè e la mia tesi riguarda un approccio di ingegneria inversa per individuare i fatti all’interno di sorgenti dati relazionali. La tesi è stata in parte svolta in Spagna in collaborazione con il gruppo di ricerca Lucentia dell’università di Alicante.
  2. Al giorno d&amp;apos;oggi le informazioni sono uno dei più importanti valori delle organizzazioni e le aziende in grado di accederci in maniera rapida e semplice possono ottenere enormi benefici. Sfortunatamente, le informazioni sono nascoste all&amp;apos;interno di grandi moli di dati immagazzinati solitamente su sorgenti dati relazionali. I dati, per divenire informazioni ed essere utili al processo decisionale, devono essere estratti, trasformati e caricati in una struttura chiamata Data Warehouse. I dati nelle sorgenti relazionali sono organizzati seguendo il modello relazionale, invece le informazioni seguono il modello multidimensionale dove i concetti principali sono i fatti e le dimensioni di analisi.
  3. La costruzione di un sistema di Data Warehouse richiede una progettazione concettuale accurata in modo da garantire: Una adeguata documentazione Il soddisfacimento dei bisogni degli utenti del business. Tipicamente la progettazione è basata su una dettagliata analisi delle sorgenti dati allo scopo di individuare gli elementi multidimensionali.
  4. I fatti sono in concetti più importanti perché corrispondono agli eventi del business e le dimensioni corrispondono alle coordinate di analisi in cui i fatti possono essere analizzati. Esistono vari approcci per individuare i fatti. L’approccio largamente più utilizzato riguarda l’utilizzo di linee guida e glossari. Per esempio, una tabella chiamata “Vendite” sarà adatta a ricoprire il ruolo di un fatto. Tuttavia, questo approccio più risultare difficile e costoso in termini di tempo quando il dominio applicativo è complesso (tabella CicloFertilità) o quando i nomi delle tabelle non hanno significato (tabella S_CCCP). Altri approcci aiutano i progettisti in maniera più automatizzata, tuttavia richiedono che la documentazione delle sorgenti dati sia presente ed aggiornata e sono focalizzati nell’individuazione delle dimensioni ed i loro attributi, delegando al progettista l’individuazione dei fatti.
  5. Per superare questi problemi, in questa tesi presentiamo un approccio per formalizzare l’individuazione dei fatti all’interno di sorgenti dati relazionali, senza richiedere ulteriore documentazione. L’approccio si basa su misure euristiche derivate da casi di studio reali ed in alcuni casi richiede la partecipazione dei business users. Inoltre l’approccio è basato e guidato dai modelli. Per la precisione, i metamodelli standard CWM e UML vengono utilizzati per modellare gli elementi relazionali e multidimensionali, rispettivamente.
  6. L’approccio proposto è suddiviso in diversi passi che, a partire dal dizionario dei dati delle sorgenti, permettono di ottenere un modello relazionale, individuare le controparti multidimensionali degli elementi relazionali, ed infine derivare lo schema concettuale multidimensionale.
  7. Il primo passo dell’approccio riguarda l’estrazione degli elementi relazionali dal dizionario dei dati delle sorgenti per ottenere un modello CWM relazionale ed un grafo relazionale. Il modello verrà utilizzato per memorizzare le controparti multidimensionali, invece il grafo verrà utilizzato per individuarle. Inoltre, in questo passo vengono eliminati gli elementi relazionali non legate al dominio applicativo, come tabelle di audit, security etc.
  8. Prima di procedere con l’individuazione degli elementi multidimensionali, l’approccio deriva le cardinalità delle associazioni presenti nel modello relazionale. Per esempio, le tabelle Store e City sono associate attraverso un vincolo di chiave importata. Per decretare le cardinalità di tale associazione sulle tabelle vengono eseguite delle interrogazioni e attraverso all’analisi dei valori restituiti è possibile decretare le cardinalità massime e minime di entrambi gli estremi.
  9. Per individuare i fatti viene utilizzato un insieme misure euristiche in parte basate sullo schema, come il rapporto di attributi numerici e il grado di ingresso di un vertice relativo ad una tabella, ed in parte basate sulle istanze come il numero di istanze delle tabelle. Per decretare quali tabelle copriranno il ruolo dei fatti, vengono utilizzate delle soglie calcolate utilizzando misure statistiche come i percentili. Infine, le controparti multidimensionali individuate verranno aggiunte al modello CWM relazionale utilizzando delle marche.
  10. Le dimensioni verranno poi individuate a partire dalle tabelle scelte come fatto navigando le dipendenze funzionali.
  11. Grazie a delle trasformazioni formali tra modelli, la conoscenza contenuta nel modello CWM relazionale marcato viene trasferita al modello concettuale multidimensionale rappresentato grazie al formalismo UML con applicato un profilo ad-hoc per la modellazione degli elementi multidimensionali, già presente in letteratura.
  12. In questa tesi è stato introdotto un approccio per formalizzare il processo di identificazione dei fatti a partire da sorgenti dati relazionali. L’approccio non richiede la documentazione delle sorgenti dati relazionali per essere applicato ed è basato su misure euristiche sintattiche derivate da casi di studio reali. In aggiunta, l’approccio ha bassa complessità computazionale. Il tempo di esecuzione totale per la più grande sorgente reale utilizzata (130 tabelle, 140 chiavi importate) è di 30 secondi.
  13. Per quanto riguarda gli sviluppi futuri, i più interessanti riguardano: La derivazione strutture multidimensionali mancanti, come le gerarchie delle dimensioni Considerare anche le sorgenti dati non-relazionali come file excel, XML, testuali etc… L’utilizzo di misure euristiche semantiche può migliorare sicuramente l’efficacia dell’approccio.
  14. Domande?