Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

3,829 views

Published on

Data warehouse description.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
3,829
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
79
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

  1. 1. Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN. Corso di laurea specialistica in informatica – A.A. 2008/2009 Corso di basi di dati avanzate e tecniche di data mining Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali Studenti: Professore: Andrea Manfucci Giorgio Cecconi Davide Ciambelli
  2. 2. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 2
  3. 3. Il modello dimensionale La progettazione dei dati del data warehouse (DW) è la pietra angolare del progetto dell'intero DW Basandosi sul progetto dei dati è possibile Pianificare e progettare le applicazioni Pianificare l'estrazione e la trasformazione dei dati Stimare l'occupazione di memoria complessiva del DW La progettazione dei dati in un DW dimensionale È basata sulla modellazione dimensionale Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 3
  4. 4. Schemi dimensionali La modellazione dimensionale è una tecnica di progettazione logica dei dati nel DW È orientata alla definizione di schemi relazionali di tipo “dimensionale” Uno schema dimensionale (chiamato anche star schema o schema a stella) è composto da Una tabella dei fatti (fact table) Un insieme di tabelle ausiliarie (dimension tables) Questo schema modella i dati delle vendite di prodotti in un certo numero di negozi nel corso del tempo Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 4
  5. 5. Scopo di uno schema dimensionale In uno schema dimensionale Una dimension table serve a rappresentare un insieme di elementi chiamati membri Una fact table serve a memorizzare un insieme di funzioni numeriche Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 5
  6. 6. Tabelle dimensione Una dimension table memorizza una dimensione rispetto alla quale è interessante analizzare un processo Una dimensione è un insieme di elementi chiamati membri Ciascuna riga di una tabella dimensione rappresenta un membro della dimensione Gli altri campi di una tabella dimensione memorizzano gli attributi dei membri Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 6
  7. 7. Tabella fatti Una fact table memorizza le misure numeriche di un proces- so Per fatto si intende una misura relativa ad un processo La chiave è normalmente composta da riferimenti alle chiavi delle varie tabelle dimensione Gli altri campi rappresentano i fatti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 7
  8. 8. Additività e semi additività dei fatti Un fatto è additivo se ha senso sommarlo rispetto ad ogni possibile combinazione delle dimensioni I fatti possono anche essere: Semi additivi se ha senso sommarli rispetto ad alcune dimensioni Non additivi se non ha senso sommarli Può avere senso combinare fatti anche non completamente additivi me- diante operazioni diverse dalla somma Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 8
  9. 9. Attributi e interrogazioni Gli attributi delle tabelle dimensione sono il principale stru- mento per l'interrogazione del DW Gli attributi delle dimensioni vengono usati per Selezionare un sottoinsieme dei dati di interesse Raggruppare i dati di interesse Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 9
  10. 10. Formato delle interrogazioni Le interrogazioni assumono solitamente il seguente formato standard Possibili anche interrogazioni che effettuano confronti e/o rapporti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 10
  11. 11. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 11
  12. 12. Studi di caso Le tecniche di modellazione dimensionale vengono illustrate mediante un certo numero di esempi chiamati studi di caso Ciascun studio di caso è relativo ad un esempio concreto Ciascun studio di caso introduce una o più tecniche di modellazione di- mensionale Ciascuna tecnica può essere usata in più contesti Inizialmente viene introdotta una semplice metodologia per la progettazione di uno schema dimensionale Uno schema dimensionale è composto da una singola tabella fatti e da un insieme di tabelle dimensione Bisogna tenere presente che Un data mart può essere composto da più schemi dimensionali Un DW dimensionale è normalmente composto da più data mart Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 12
  13. 13. Progettazione di uno schema dimensionale La progettazione di uno schema dimensionale richiede lo svolgimento di quattro passi Scelta del processo di business da modellare Scelta della grana del processo Scelta delle dimensioni da cui dipende ciascun record della tabella fatti Scelta dei fatti misurabili che popoleranno ogni record della tabella fatti Queste scelte devono essere guidate Dai requisiti Dalle sorgenti informative disponibili Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 13
  14. 14. Progettazione di uno schema dimensionale Scelta del processo di business da modellare Quale processo stiamo modellando? Per processo si intende un processo operazionale, supportato da uno o più sistemi operazionali, i cui dati possono essere utilizzati per popolare lo schema dimensionale Scelta della grana del processo Che cosa descrive una singola riga della tabella fatti? Per grana si intende il livello di dettaglio atomico che deve essere rap- presentato nella tabella fatti per il processo Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 14
  15. 15. Progettazione di uno schema dimensionale Scelta delle dimensioni da cui dipende ogni record della ta- bella fatti In che modo sono descritti i dati di interesse per il processo che stiamo modellando? Una dimensione è un insieme di membri caratterizzati da un certo nu- mero di attributi da usare nelle select e nei raggruppamenti Scelta dei fatti misurabili che popoleranno ogni record della tabella fatti Che cosa stiamo misurando? I fatti sono misure del processo selezionato Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 15
  16. 16. Il processo delle vendite Si consideri il seguente caso di studio, relativo al processo delle vendite al dettaglio in una catena di negozi alimentari Lavoriamo nella direzione di una grande catena di alimentari La catena comprende 500 grandi negozi alimentari, distribuiti in 3 re- gioni Ogni negozio è un supermercato con diversi reparti Nella catena di negozi sono venduti circa 60.000 tipi di prodotti indivi- duali (SKU) Circa 40.000 SKU vengono da fornitori esterni e su di essi è stampato un codice a barre chiamato codice universale del prodotto (UPC) Gli altri 20.000 SKU corrispondono a prodotti che non sono confezionati o che sono confezionati localmente e non hanno un UPC Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 16
  17. 17. Il processo delle vendite Dove vengono raccolti i dati della catena di negozi alimentari? I dati relativi alle vendite vengono raccolti in ciascuna cassa mediante dei siste- mi POS La direzione della catena si occupa della logistica delle ordinazioni, della disposizione delle merci sugli scaffali, della vendita dei pro- dotti e della massimizzazione del profitto Sorgenti del profitto Le scelte sotto il controllo della direzione della catena si negozi riguardano Le promozioni comprendono Pubblicità Esposizione sugli scaffali Uno degli obiettivi della direzione è la comrpendione dell'impatto delle promozioni sulle vendite e, quindi, sui profitti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 17
  18. 18. Il data mart delle vendite Scelta della grana Per il data mart per il processo delle vendite sono possibili diverse scelte per la grana Ad esempio unità di vendita (SKU) per negozio per giorno La scelta della grana ha influenza Sulle dimensioni usate nel data mart Sul tipo di analisi che può essere effettuato Sull'occupazione di memoria del data mart Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 18
  19. 19. Il data mart delle vendite Scelta delle dimensioni Fissati il processo e la grana bisogna scegliere le dimensioni. Per alcune dimensioni la scelta è immediata Si tratta delle dimensioni primarie che fissano la grana delle misurazioni e sono tra loro indipendenti poiché le misure relative ai movimenti giornalie- ri dei prodotti dipendono funzionalmente da queste dimensioni La scelta di altre dimensioni è meno ovvia Si tratta delle dimensioni supplementari che dipendono funzionalmente dalle dimensioni primarie nel senso che per ogni possibile combinazione del- le dimensioni primarie è univoca la scelta del valore delle dimensioni sup- plementari Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 19
  20. 20. Il data mart delle vendite Scelta dei fatti Le misure disponibili relativamente alle vendite giornaliere dei prodotti sono Incasso totale in dollari (dollar_sales) Numero totale di unità vendute (units_sales) Costo totale in dollari (dollar_cost) Numero di clienti (customer_count) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 20
  21. 21. La dimensione del tempo La dimensione tempo descrive i giorni di un intervallo tempora- le di interesse La dimensione tempo è presente nella maggior parte degli schemi dimensionali e praticamente in tutti I DW La realizzazione di una tabella dimensionale per il tempo è semplice Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 21
  22. 22. Le dimensioni prodotto, negozio, numero di transazione e promozione La dimensione prodotto descrive le unità di vendità (SKU) della catena di negozi La dimensione negozio descrive i negozi della catena e rap- presenta una dimensione essenzialmente geografica La dimensione numero di transazione rappresenta gli scon- trini di vendita Utilizzando anche questa dimensione come dimensione primaria la gra- na dei dati nella tabella fatti diventa quella di una riga per ciascuna voce di scontrino di vendita La dimensione promozione descrive ogni possibile promo- zione che si applica alla vendita dei prodotti ed è una dimen- sione causale Descrive fattori che sono la causa di potenziali cambiamenti (abitudini dei clienti) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 22
  23. 23. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 23
  24. 24. Il processo delle spedizioni Il processo delle spedizioni riguarda il flusso di spedizione dei prodotti dall'organizzazione al cliente Il processo delle spedizioni viene analizzato dal punto di vista del caricamento delle merci sui mezzi di trasporto destinati ai clienti I dati conosciuti dall'organizzazione relativamente ad una spedi- zione non si limitano ai dati mostrati sul documento allegato ma comprendono anche Prezzi di listino, costi di produzione, distribuzione e commercializzazio- ne Il data mart delle spedizioni è una sorgente informativa molto potente Contiene dati relativi a tutti i prodotti, tutti i clienti, e tutti i contratti con cui l'organizzazione vende prodotti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 24
  25. 25. Schema dimensionale per le spedizioni La grana della tabella fatti rappresenta la linea nel documento di accompagnamento della spedizione Tempo e prodotto Sede destinazione (Cust Ship-to) Accordo commerciale (Deal) Sede sorgente (Ship-from) Modalità di spedizione (Ship-mode) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 25
  26. 26. Le dimensioni Cust Ship-to, Deal, Ship-from e Ship- mode La dimensione Cust Ship-to descrive le possibili sedi di de- stinazioni a cui vengono effettuate le spedizioni La dimensione Deal descrive gli incentivi che sono stati of- ferti al cliente relativamente alla vendita che ha portato alla spedizione La dimensione Ship-from descrive le sedi da cui hanno origi- ne le spedizioni La dimensione Ship-mode descrive informazioni relative alla modalità di spedizione ai clienti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 26
  27. 27. Dichiarazione profitti e perdite e soddisfazione del cliente Al momento della consegna sono note molte informazioni re- lative al valore della merce consegnata una dichiarazione profitti e perdite descrive tutti gli incassi e i costi dal valore di vendita massimo (senza sconti) al valore effettivo di vendita (dopo tutti gli sconti, deduzioni e costi) è corretto associare alla consegna solo i valori direttamente imputabili ad essa Al momento della consegna sono noti alcuni fatti che in- fluenzano la soddisfazione del cliente Consegna in tempo Consegna completata Consegna senza danni Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 27
  28. 28. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 28
  29. 29. Il processo catena del valore Lato della domanda: uno scenario tipico legato alla domanda dei prodotti è rappresentato dai seguenti schemi dimensio- nali, ordinati dal punto in cui il prodotto ha origine al punto in cui viene venduto all'utente finale Magazzino dei prodotti finiti Tempo, prodotto, magazzino Spedizione al centro di distribuzione Tempo, prodotto, magazzino, modalità di consegna Magazzino del centro di distribuzione Tempo, prodotto, centro di distribuzione Spedizione ai negozi di vendita Tempo, prodotto, negozio Magazzino dei negozi di vendita Tempo, prodotto, negozio Vendita al dettaglio Tempo, prodotto, negozio, promozione, cliente Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 29
  30. 30. Il processo catena del valore Lato della produzione: il processo di produzione riguarda l'acquisizione di parti ed il loro montaggio in prodotti finiti Ordinazione materiali Tempo, ingrediente, fornitore Consegna materiali Tempo, ingrediente, fornitore, stabilimento, modalità di consegna Magazzino materiali Tempo, ingrediente, stabilimento Monitoraggio dei processi produttivi Tempo, ingrediente, processo, stabilimento Montaggio Tempo, ingrediente, prodotto Inventario prodotti finiti Tempo, prodotto, magazzino Programmazione della produzione Tempo, prodotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 30
  31. 31. Dimensioni conformi Una dimensione conforme è una dimensione che ha esattamen- te lo stesso significato in più schemi dimensionali Un insieme di schemi dimensionali forma un data mart se è sta- to costruito attorno ad un insieme coerente e coordinato di di- mensioni conformi Esistono diversi tipi di dimensioni conformi Dimensioni assolutamente identiche Dimensioni con gli stessi membri e gli stessi identificatori ma attributi diversi Dimensioni con dettaglio ridotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 31
  32. 32. Architettura del DW a Bus L'idea è quella di definire uno standard aziendale per connette- re i diversi data mart all'architettura più ampia del DW infatti i data mart possono essere collegati e cooperare se rispettano questo standard aziendale Viceversa, è inaccettabile creare data mart separati che ignora- no l'aspetto della condivisione dei dati perché di fatto, bloccano lo sviluppo di un ambiente di DW coerente L'architettura del DW a bus è basata sulle nozioni di Dimensioni conformi Fatti conformi Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 32
  33. 33. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 33
  34. 34. Il processo dei servizi finanziari Viene ora considerato il DW per una grande banca La banca offre diversi servizi finanziari Ad esempio conti correnti, libretti di risparmio, mutui, investimenti, prestiti personali, carte di credito, cassette di sicurezza, ... Vogliamo analizzare tutti i conti gestiti dalla banca, con i relativi titolari individuali, ma soprattutto le famiglie (residenziali e commerciali) a cui appartengono Lo scopo è Offrire servizi più efficienti Offrire servizi supplementari Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 34
  35. 35. Il processo dei servizi finanziari Mediante delle interviste sono stati raccolti i seguenti requisiti Devono essere memorizzati cinque anni di storia per ciascun conto Ogni tipo di conto ha un saldo primario Ogni tipo di conto è caratterizzato da attributi e fatti numerici propri Ogni conto è considerato appartenente ad una famiglia (residenziale o commerciale) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 35
  36. 36. Il data mart dei servizi finanziari Viene deciso di realizzare un data mart per il processo dei conti delle famiglie La progettazione del data mart viene svolta in due passi Prima viene progettato uno schema dimensionale nucleo (core) relativo a tutti i conti (ovvero a tutti i tipi di conto) Successivamente il progetto del data mart verrà completato tenendo in considerazione le caratteristiche individuali di ciascun tipo di conto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 36
  37. 37. Progettazione della tabella fatti nucleo La tabella fatti nucleo per il processo dei conti delle famiglie dipende dalle seguenti dimensioni Conto (account), famiglia (household), filiale (branch), prodotto (product), stato (status) e tempo (time) La grana della tabella fatti è conto per mese Le dimensioni primarie sono conto e tempo Le dimensioni famiglia, filiale, prodotto e stato sono dimensioni supplementari I fatti di interesse sono Saldo primario (primary balance) e numero di transazioni (transaction count) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 37
  38. 38. Attributi delle dimensioni Conto Nome primario, nome secondario, indirizzo, zip, stato, città, data apertura, età primario, sesso primario, stato civile primario Famiglia Nome capofamiglia, indirizzo, zip, stato, città, reddito, tipo di famiglia Filiale Nome filiale, indirizzo, zip, stato, città, tipo filiale Prodotto Descrizione, tipo, categoria Stato Descrizione dello stato, ragione, flag nuovo conto, flag coto chiuso Tempo Mese, anno, trimestre fiscale Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 38
  39. 39. Conti e famiglie La scelta di trattare separatamente conti e famiglie è legata principalmente al fatto che la dimensione conto è grande ed è soggetta a cambiamenti nel tempo La definizione degli elementi di una famiglia cambia nel tempo La nozione di conto è fondamentale nella banca Bisogna evitare di gestire la dimensione conto come di tipo 2 (non sono interessanti le versioni dei conti) La corrispondenza tra i conti e famiglie è gestita come fatto nella tabella fatti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 39
  40. 40. Prodotti e stato La dimensione prodotto contiene solo gli attributi comuni a tutti i diversi tipi di conto offerti dalla banca Contiene una gerarchia di attributi elementari (descrizione, tipo e categoria) Non contiene nessun attributo proprio di nessun tipo particolare di conto Il prodotto è una caratteristica di ciascun conto La dimensione prodotto è stata mantenuta separata dalla dimensione conto perché la banca pensa ai prodotti come a una dimensione fondamentale della banca La dimensione stato descrive lo stato in cui può trovarsi un conto Viene usata anche per tenere traccia dei cambiamenti di stato dei conti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 40
  41. 41. Dimensioni sporche Nello schema dimensionale per i servizi finanziari non è presente una dimensione cliente La dimensione più vicina a cliente è conto Nei servizi finanziari (per ragioni storiche e culturali) l'enfasi è sui conti e non sui loro titolari Se fosse presente la dimensione cliente sarebbe una dimensione sporca Ovvero una dimensione che contiene molti membri duplicati o non completamente corretti La dimensione famiglia è probabilmente una dimensione sporca (con una accuratezza dell'80% circa) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 41
  42. 42. Semi-additività dei saldi I saldi dei conti sono fatti semi-additivi (come i livelli di inventario) Non sono additivi rispetto al tempo Per combinare un insieme di saldi attraverso un intervallo temporale, calcolandone la media, bisogna sommare I saldi e dividere per il numero di periodi dell'intervallo temporale Le applicazioni che devono calcolare la media di dati semi- additivi (non additivi rispetto al tempo) Non devono usare direttamente la funzione AVG di SQL Devono calcolare in proprio la funzione (virtuale) “media su un intervallo temporale” Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 42
  43. 43. Prodotti eterogenei La progettazione del data mart dei servizi finanziari deve considerare anche la presenza di diverse tipologie di prodotti eterogenei I prodotti sono eterogenei nel senso che ciascun prodotto è caratterizzato da un proprio insieme di attributi (descrittivi) e di fatti (numerici) Ad esempio I conti correnti sono caratterizzati da un saldo del conto, saldo minimo, limite dello scoperto, spese, collegamento a carte di credito, ... Le carte di credito sono caratterizzate da un saldo, limite del credito, data di emissione e scadenza Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 43
  44. 44. Gestione prodotti eterogenei Una prima soluzione è quella di estendere la tabella fatti con i fatti di ciascun tipo di conto e la dimensione prodotto con gli attributi di ciascun tipo di conto Tuttavia questi fatti e attributi sarebbero spesso non significativi e vuoti con notevole spreco di occupazione di memoria e degrado delle prestazioni Inoltre l'introduzione di nuovi tipi di prodotto sarebbe difficoltosa Una soluzione più efficace consiste nell'introduzione di una nuova tabella fatti e di una nuova dimensione personalizzata per ciascun tipo di conto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 44
  45. 45. Schema dimensionale dei prodotti eterogenei Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 45
  46. 46. Schema dimensionale dei prodotti eterogenei Il data mart completo dei servizi finanziari comprende Una tabella fatti e una tabella dimensione nucleo Una tabella fatti e una tabella dimensione personalizzata per ciascun tipo di prodotto Ogni membro della dimensione prodotto nucleo è anche membro di (esattamente) una dimensione prodotto personalizzata Ogni record della tabella fatti nucleo descrive un insieme di fatti che è riportato anche in un record di (esattamente) una tabella fatti personalizzata Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 46
  47. 47. Analisi dei prodotti eterogenei Le analisi di interesse per una base di dati di prodotti eterogenei sono di due tipi Analisi interessate a più tipi di prodotti eterogenei Sono interessate solo a fatti e attributi comuni a tutti i tipi di prodotto Analisi interessate ad un solo tipo di prodotto Sono interessate anche a fatti e attributi propri del particolare tipo di prodotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 47
  48. 48. Altre rappresentazioni di prodotti eterogenei Il data mart dei servizi finanziari è formato dalle istantanee relative a conti appartenenti ad un certo numero di classi di prodotti eterogenei La tabella fatti contiene in questo caso molti fatti Che cosa sarebbe successo se la grana del data mart fosse stata quella delle transazioni? In questo caso l'unico fatto interessante sarebbe stato la quantità indipendentemente dalla classe di prodotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 48
  49. 49. Uso di minidimensioni Le dimensioni conto e famiglia sono grandi e oggette a cambiamenti lenti nel tempo In questo caso può essere opportuno evidenziare gli attributi variabili nel tempo di cui interessa tenere traccia e decomporre le dimensioni mediante l'introduzione di minidimensioni Le minidimensioni rappresenterebbero classi predefinite (e sostanzialmente invarianti nel tempo) di combinazioni degli attributi variabili Sarebbe poi possibile accedere ai fatti sia sulla base dei valori delle dimensioni nei periodi relativi ai fatti che dei valori correnti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 49
  50. 50. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 50
  51. 51. Ciclo di vita dimensionale e sue fasi Viene ora descritta una metodologia completa di progettazione e realizzazione di DW La metodologia è descritta dal ciclo di vita dimensionale dei DW Fornisce il contesto di riferimento per la progettazione e realizzazione di DW dimensionali Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 51
  52. 52. Pianificazione e gestione progetto Il ciclo di vita di un DW ha inizio con la pianificazione e per tutta la sua durata richiede una attività di gestione La pianificazione riguarda la definizione del progetto di DW e dei suoi confini Analisi preliminare dei requisiti e dei confini del progetto Valutazioni economiche Identificazione delle risorse Formazione dei gruppi di lavoro Definizione del piano di sviluppo Gestione del progetto Monitoraggio e controllo Gestione dei cambiamenti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 52
  53. 53. Raccolta e analisi dei requisiti Comprensione dettagliata dei requisiti del DW Requisiti raccolti dai responsabili dei processi Obiettivi dell'organizzazione Processi dell'organizzazione Metriche di prestazione dei processi Dimensioni Modalità correnti e desiderate di analisi Requisiti raccolti dai responsabili del sistema informativo Sorgenti di dati Modalità correnti di analisi Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 53
  54. 54. Progettazione de DW La progettazione del DW avviene su tre tracce parallele Progettazione dei dati Progettazione tecnologica Progettazione delle applicazioni Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 54
  55. 55. Progettazione dimensionale La progettazione dimensionale è la progettazione logica dei dati del DW basata sull'architettura a bus Progettazione dei data mart Progettazione di un insieme di dimensioni conformi Progettazione degli schemi dimensionali Analisi delle sorgenti informative Piano preliminare delle aggregazioni Lo schema logico del DW è la pietra angolare della progettazione dell'intero DW Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 55
  56. 56. Progettazione fisica Definizione delle strutture fisiche adeguate a una rappresen- tazione efficiente dello schema logico del DW Definizione dello schema dei dati Progettazione preliminare delle srategie di Indicizzazione Partizionamento dei dati Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 56
  57. 57. Progetto e sviluppo della preparazione dei dati Il processo di preparazione dei dati Ha tre passi principali Estrazione Trasformazione Caricamento Deve gestire la qualità dei dati presenti nelle sorgenti informative Deve essere realizzata in due forme Preparazione al caricamento iniziale del DW (preparazione statica) Preparazione ai caricamenti periodici (preparazione incrementale) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 57
  58. 58. Progettazione tecnologica Progettazione dell'architettura globale del DW (ovvero del sistema di data warehousing) Richiede l'integrazione di numerosi sistemi e tecnologie Selezione e installazione dei prodotti Scelta degli ambienti hardware e software Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 58
  59. 59. Progettazione delle applicazioni Specifica delle applicazioni utente Non tutti gli utenti useranno strumenti ad hoc di interrogazione È quindi necessario sviluppare un insieme di applicazioni per gli utenti finali Basata sullo schema logico (dimensionale) dei dati Sviluppo delle applicazioni Solitamente basato sull'uso di Strumenti avanzati di accesso ai dati Metadati Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 59
  60. 60. Installazione e avviamento Le tracce di progettazione dei dati, tecnologia e delle applicazioni convergono in questa fase Il DW viene costruito e reso accessibile agli utenti finali Installazione delle applicazioni Formazione degli utenti Supporto agli utenti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 60
  61. 61. Manutenzione e crescita La manutenzione comprende Supporto e formazione continui Verifica di qualità del DW Un DW realizzato con il ciclo di vita dimensionale è pronto a evolvere e crescere L'evoluzione di un DW è indice di successo, non di fallimento Solitamente l'evoluzione riguarda il miglioramento dei data mart esistenti e la realizzazione di nuovi data mart Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 61
  62. 62. FINE GRAZIE PER L'ATTENZIONE Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 62

×