Serenissima Informatica - "Creare valore e sviluppare business grazie all' I...
Carme Thesis Presentation
1. UN APPROCCIO DI REVERSE-
ENGINEERING PER
INDIVIDUARE I FATTI
ALL’INTERNO DI SORGENTI
DATI RELAZIONALI
Presentato da
Andrea Carmè Cesena, 21 ottobre 2010
2. DATI E INFORMAZIONI
Sorgenti dati
relazionali
Data Warehouse
Informazioni
Modello multidimensionale
Modello relazionale
-Fatti
-Dimensioni
- Relazioni
- Attributi
3. PROGETTAZIONE CONCETTUALE
Una progettazione concettuale accurata è fondamentale
per la costruzione di un Data Warehouse
Ben documentato
Soddisfare i bisogni
degli utenti del business
Analisi delle sorgenti relazionali
Individuazione degli elementi
multidimensionali
Scopo
PROGETTAZIONE GUIDATA DAI
DATI
4. INDIVIDUAZIONE DEGLI ELEMENTI MD
Linee
guida
Glossari Vendite Ciclo
Fertilità
APPROCCI MANUALI
APPROCCI AUTOMATIZZATI
S_CCCP
Documentazione
sorgenti dati
Focalizzati sulle
dimensioni
Vendite Ciclo
Fertilità
S_CCCP
PROBLEMI
PROBLEMI
I fatti sono gli elementi multidimensionali più importanti dal
momento che corrispondono agli eventi di interesse del business
5. INDIVIDUAZIONE DEI FATTI
APPROCCIO PER FORMALIZZARE
L’INDIVIDUAZIONE DEI FATTI
Documentazione
sorgenti dati
Basato su euristiche
CWM Relazionale Profilo UML
CARATTERISTICHE
Basato e guidato
dai modelli
Vendite Ciclo
Fertilità
S_CCCP
UFRO TAHE Fertilidad
8. INDIVIDUAZIONE STRUTTURE MD
Store City
R = Select idCity from Store where idCity is not null
P = Select distinct idCity from R
Store City
M-1
0 0
9. INDIVIDUAZIONE STRUTTURE MD
MISURE EURISTICHE UTILIZZATE
Ratio degli attributi numerici: Le misure sono sempre numeriche e
le tabelle con un alto ratio sono più adatte a ricoprire il ruolo di fatto
Numero di istanze: Le tabelle con il maggior numero di istanze
potrebbero corrispondere a fatti
Grado d’ingresso: Le tabelle con poche o nessuna chiavi importate
in ingresso potrebbero corrispondere a fatti
SOGLIA: > 25-esimo percentile
SOGLIA: > 75-esimo percentile
SOGLIA: < 0 o 1
12. CONCLUSIONI
Approccio per formalizzare il processo di
identificazione dei fatti a partire da
sorgenti dati relazionali
Non richiede la documentazione delle
sorgenti dati relazionali
Basato su misure euristiche
Bassa complessità computazionale
~ 30 secondi
(130 tabelle, 140 FKs)
CARATTERISTICHE
13. SVILUPPI FUTURI
Derivare anche le altre strutture
multidimensionali: gerarchie delle dimensioni
Considerare anche le sorgenti non-relazionali
Considerare anche misure euristiche basate sulle
caratteristiche semantiche delle sorgenti
14. DOMANDE?
UN APPROCCIO DI REVERSE-
ENGINEERING PER
INDIVIDUARE I FATTI
ALL’INTERNO DI SORGENTI
DATI RELAZIONALI
Andrea Carmè Cesena, 21 ottobre 2010
Editor's Notes
Buongiorno a tutti, sono Andrea Carmè e la mia tesi riguarda un approccio di ingegneria inversa per individuare i fatti all’interno di sorgenti dati relazionali.
La tesi è stata in parte svolta in Spagna in collaborazione con il gruppo di ricerca Lucentia dell’università di Alicante.
Al giorno d&apos;oggi le informazioni sono uno dei più importanti valori delle organizzazioni e le aziende in grado di accederci in maniera rapida e semplice possono ottenere enormi benefici.
Sfortunatamente, le informazioni sono nascoste all&apos;interno di grandi moli di dati immagazzinati
solitamente su sorgenti dati relazionali.
I dati, per divenire informazioni ed essere utili al processo decisionale, devono essere estratti, trasformati e caricati in una struttura chiamata Data Warehouse.
I dati nelle sorgenti relazionali sono organizzati seguendo il modello relazionale, invece le informazioni seguono il modello multidimensionale dove i concetti principali sono i fatti e le dimensioni di analisi.
La costruzione di un sistema di Data Warehouse richiede una progettazione concettuale accurata in modo da garantire:
Una adeguata documentazione
Il soddisfacimento dei bisogni degli utenti del business.
Tipicamente la progettazione è basata su una dettagliata analisi delle sorgenti dati allo scopo di individuare gli elementi multidimensionali.
I fatti sono in concetti più importanti perché corrispondono agli eventi del business e le dimensioni corrispondono alle coordinate di analisi in cui i fatti possono essere analizzati.
Esistono vari approcci per individuare i fatti.
L’approccio largamente più utilizzato riguarda l’utilizzo di linee guida e glossari.
Per esempio, una tabella chiamata “Vendite” sarà adatta a ricoprire il ruolo di un fatto.
Tuttavia, questo approccio più risultare difficile e costoso in termini di tempo quando il dominio applicativo è complesso (tabella CicloFertilità) o quando i nomi delle tabelle non hanno significato (tabella S_CCCP).
Altri approcci aiutano i progettisti in maniera più automatizzata, tuttavia richiedono che la documentazione delle sorgenti dati sia presente ed aggiornata e sono focalizzati nell’individuazione delle dimensioni ed i loro attributi, delegando al progettista l’individuazione dei fatti.
Per superare questi problemi, in questa tesi presentiamo un approccio per formalizzare l’individuazione dei fatti all’interno di sorgenti dati relazionali, senza richiedere ulteriore documentazione.
L’approccio si basa su misure euristiche derivate da casi di studio reali ed in alcuni casi richiede la partecipazione dei business users.
Inoltre l’approccio è basato e guidato dai modelli. Per la precisione, i metamodelli standard CWM e UML vengono utilizzati per modellare gli elementi relazionali e multidimensionali, rispettivamente.
L’approccio proposto è suddiviso in diversi passi che, a partire dal dizionario dei dati delle sorgenti, permettono di ottenere un modello relazionale, individuare le controparti multidimensionali degli elementi relazionali, ed infine derivare lo schema concettuale multidimensionale.
Il primo passo dell’approccio riguarda l’estrazione degli elementi relazionali dal dizionario dei dati delle sorgenti per ottenere un modello CWM relazionale ed un grafo relazionale. Il modello verrà utilizzato per memorizzare le controparti multidimensionali, invece il grafo verrà utilizzato per individuarle.
Inoltre, in questo passo vengono eliminati gli elementi relazionali non legate al dominio applicativo, come tabelle di audit, security etc.
Prima di procedere con l’individuazione degli elementi multidimensionali, l’approccio deriva le cardinalità delle associazioni presenti nel modello relazionale.
Per esempio, le tabelle Store e City sono associate attraverso un vincolo di chiave importata. Per decretare le cardinalità di tale associazione sulle tabelle vengono eseguite delle interrogazioni e attraverso all’analisi dei valori restituiti è possibile decretare le cardinalità massime e minime di entrambi gli estremi.
Per individuare i fatti viene utilizzato un insieme misure euristiche in parte basate sullo schema, come il rapporto di attributi numerici e il grado di ingresso di un vertice relativo ad una tabella, ed in parte basate sulle istanze come il numero di istanze delle tabelle.
Per decretare quali tabelle copriranno il ruolo dei fatti, vengono utilizzate delle soglie calcolate utilizzando misure statistiche come i percentili.
Infine, le controparti multidimensionali individuate verranno aggiunte al modello CWM relazionale utilizzando delle marche.
Le dimensioni verranno poi individuate a partire dalle tabelle scelte come fatto navigando le dipendenze funzionali.
Grazie a delle trasformazioni formali tra modelli, la conoscenza contenuta nel modello CWM relazionale marcato viene trasferita al modello concettuale multidimensionale rappresentato grazie al formalismo UML con applicato un profilo ad-hoc per la modellazione degli elementi multidimensionali, già presente in letteratura.
In questa tesi è stato introdotto un approccio per formalizzare il processo di identificazione dei fatti a partire da sorgenti dati relazionali.
L’approccio non richiede la documentazione delle sorgenti dati relazionali per essere applicato ed è basato su misure euristiche sintattiche derivate da casi di studio reali.
In aggiunta, l’approccio ha bassa complessità computazionale. Il tempo di esecuzione totale per la più grande sorgente reale utilizzata (130 tabelle, 140 chiavi importate) è di 30 secondi.
Per quanto riguarda gli sviluppi futuri, i più interessanti riguardano:
La derivazione strutture multidimensionali mancanti, come le gerarchie delle dimensioni
Considerare anche le sorgenti dati non-relazionali come file excel, XML, testuali etc…
L’utilizzo di misure euristiche semantiche può migliorare sicuramente l’efficacia dell’approccio.