20120419   business intelligence ed analisi multidimensionale dei dati
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

20120419 business intelligence ed analisi multidimensionale dei dati

on

  • 681 views

Lezione sulla Business Intelligence (Analytics) e sull'analisi multidimesionale dei dati per i candidati all'Esame di Stato per l'abilitazione alla professione di Ingegnere dell'Informazione 2012.

Lezione sulla Business Intelligence (Analytics) e sull'analisi multidimesionale dei dati per i candidati all'Esame di Stato per l'abilitazione alla professione di Ingegnere dell'Informazione 2012.

Statistics

Views

Total Views
681
Views on SlideShare
681
Embed Views
0

Actions

Likes
0
Downloads
13
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

20120419 business intelligence ed analisi multidimensionale dei dati Document Transcript

  • 1. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euBusiness Intelligence e Analisi multidimensionale dei datiPremessaI sistemi gestionali d’impresa stanno evolvendo sotto la spinta dei sistemi per la qualità verso normativeche dettano i criteri per la corretta conduzione degli affari nel contesto ampio dell’economia, della societàe dell’ambiente in cui operano. Il fenomeno è diffuso in tutto il mondo e si assiste ad un continuo fiorire diricerche, iniziative e imprese che si impegnano a definire tali criteri ed a proporre modelli organizzativi estrumenti di gestione, che ne consentano l’applicazione. In campo europeo “il libro verde dellaCommissione Europea del 20011 identifica chiaramente i fattori che giustificano l’adozione di normegestionali orientate a obiettivi di qualità in tutte le innumerevoli relazioni d’affari. Il fattore fondamentale èquello di assicurare all’impresa la capacità di produrre reddito nel lungo periodo, adattandosi ed evolvendosotto la spinta della competizione e della trasformazione dei mercati a livello globale. Gli altri fattori sonoda identificare principalmente nei “criteri sociali che influiscono sempre più sulle decisioni di investimentodegli individui o delle istituzioni, sia in quanto consumatori che in quanto investitori; nelle inquietudinicrescenti suscitate dal deterioramento dell’ambiente provocato dall’attività economica e nella trasparenzaarrecata dai mezzi di comunicazione e dalle tecnologie moderne dell’informazione e della comunicazionenell’attività delle imprese”. Altro fattore importante è il mantenimento della buona reputazionedell’impresa, che può soffrire per le critiche formulate nei riguardi delle sue prassi commerciali e si riflettedirettamente sul valore del suo marchio e la sua immagine.L’impresa che vuole mantenere nel tempo il suo successo non può più accontentarsi di soddisfare leesigenze esplicite ed implicite dei propri clienti, come prospettato dai sistemi di gestione per la qualità,standardizzati nelle norme ISO 9000:2000, ma deve cercare di soddisfare anche le aspettative di tutte lealtri parti interessate, o “stakeholder”: investitori, banche, fornitori, dipendenti, collaboratori, comunità,pubblica amministrazione, ambiente. In particolare deve dimostrare di svolgere un ruolo positivo nellacomunità in cui opera, recependo e attuando correttamente le politiche di sviluppo a livello locale,nazionale ed internazionale.Da queste considerazioni deriva la definizione di Responsabilità Sociale dImpresa (o Corporate SocialResponsibility – CSR, per usare la definizione e l’acronimo angloamericano) data nel Libro verde, in cui siafferma che “è lintegrazione volontaria, da parte delle imprese, delle preoccupazioni sociali ed ambientalinelle loro operazioni commerciali e nei loro rapporti con le parti interessate”.Questo concetto si collega strettamente con quello di “sostenibilità”, che si declina principalmente in tredimensioni2: “la sostenibilità economica, intesa come capacità di generare reddito, profitti e lavoro; la sostenibilità sociale, intesa come capacità di garantire condizioni di benessere e opportunità di crescita equamente distribuite e come capacità di rispettare i diritti umani e del lavoro;1 Libro verde “Promuovere un quadro europeo per la responsabilità sociale delle imprese” – COM (2001)3662 Dino Bogazzi, Direttore Qualità e organizzazione del Consorzio Cooperative Costruzioni, Presidente delSettore Costruzioni Civili dell’AICQ, Vicepresidente ICIC - Istituto Certificazione Imprese di Costruzione -Responsabilità sociale: Bilancio di Sostenibilità – Rivista AICQ marzo-aprile 2007bi ed analisi multidimensionale dei dati.docx 1/25 autore: ing. R. Perrotta
  • 2. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.eu la sostenibilità ambientale, intesa come capacità di salvaguardare le risorse naturali e la possibilità dellecosistema di assorbire e tollerare gli impatti diretti ed indiretti generati dallattività produttiva”.Rendere conto dell’impegno e dei risultati ottenuti dall’impresa nel perseguimento dei suoi obiettivieconomici, sociali ed ambientali comporta un ampliamento dei suoi documenti di Bilancio da quellopuramente Economico-Patrimoniale a quello Sociale.Questo aspetto implica un notevole impegno da parte dell’alta direzione nell’impostazione e attuazione diun sistema gestionale che identifichi tutte le parti interessate alle proprie attività (i famosi “stakeholder”),gli indicatori di risultato degli obiettivi e le politiche che consentano di perseguire tali obiettivi. Inoltre, ènecessario sviluppare un sistema informativo che consenta di raccogliere tutti i dati e misurare gliindicatori di risultato in modo da redigere il Bilancio Sociale in modo esauriente e credibile e darneinformazione agli interessati. Occorre quindi entrare in contatto con tutte le parti che usufruiscono deiprodotti e servizi dell’impresa o che comunque influiscono a vario titolo sul suo successo, rilevarne leesigenze, prospettare attività che concorrano alla crescita economica, alla coesione sociale ed alla tuteladell’ambiente in modo efficace e convincente e rendicontare i risultati di tale attività nella prospettiva diun miglioramento continuo”3.Definizione di Business IntelligenceRaccogliere, riepilogare, interpretare, documentare, diffondere le informazioni sui propri affari comportaun’attività di “intelligence”, cioè di servizio informativo, che, essendo orientata agli affari ed alla gestioneaziendale, è detta propriamente di “Business Intelligence” (BI), che potremmo tradurre come “servizioinformativo sulla gestione aziendale”. Il termine “Business Intelligence” è stato coniato da Howard Dresner, nei primi anni ’90, quando era Vice Presidente di Gartner Group e responsabile dell’area di ricerca in questo campo. Attualmente Dresner è Chief Research Officer della società indipendente di consulenza da lui fondata, Dresner Advisory Services, ed è riconosciuto come un’autorità nelle aree della BI e del BPM - Business Performance Management (Gestione delle prestazioni aziendali) (http://howarddresner.com/ ). Da un primo punto di vista la Business Intelligence può essere assimilata ad una forma di controllo di gestione o di gestione delle prestazioni, essendo orientata alla rilevazione e valutazione dei principali indicatori strategici aziendali (KPI – Key Performance Indicator). Tuttavia, valutare le prestazioni significa avere l’occhio rivolto al passato, cioè alla valutazione dei risultati ottenuti con le azioni manageriali impostate,Figura 1 - Howard Dresner decise ed attuate nel periodo precedente alla data in cui si valuta, e non dice nulla sul presente e sul futuro. La Business Intelligence, invece, puòrispondere anche a queste esigenze: può dare informazioni sulla struttura del proprio modello di businesse sullo stato degli affari; può cercare di esplicitare, estraendole dalla base dati del sistema informativo3 Ing. R. Perrotta – La responsabilità sociale d’impresa – Bollettino del Governatore Rotary 2060 - ____2010bi ed analisi multidimensionale dei dati.docx 2/25 autore: ing. R. Perrotta
  • 3. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euaziendale, informazioni nascoste o implicite e produrre nuove conoscenze su tali modelli o suggerirne dinuovi; può studiare l’andamento storico degli indicatori per rilevare tendenze e formulare previsioni suiloro andamenti futuri.Consegue che la Business Intelligence può essere definita in generale come il processo per esplorare eanalizzare informazioni strutturate e non strutturate, specifiche di un dominio, per valutare prestazioni erilevare modelli e tendenze di business da cui derivare interpretazioni, trarre conclusioni e prenderedecisioni. Tali domini comprendono clienti, fornitori, prodotti, servizi, concorrenti ed, in genere, tutti glistakeholder aziendali. Storicamente la BI ha trattato i dati strutturati, ma negli ultimi anni la ricerca e leapplicazioni hanno esteso il loro campo anche alle informazioni non strutturate.Architettura dei sistemi di BI – Data WarehouseIl sistema informatico a supporto della BI è detto “Data Warehouse” (DW) (magazzino dei dati). Spesso idue termini si confondono e si include nel significato di BI anche il riferimento alla tecnologia di supporto. Il primo professionista che ha parlato esplicitamente di data warehouse è stato William H. Inmon, che lo ha definito come una raccolta di dati integrata, orientata al soggetto, variabile nel tempo e non volatile di supporto ai processi decisionali. A suo modo di vedere, lintegrazione dei dati costituisce la principale caratteristica distintiva del DW rispetto ad altri sistemi di supporto alle decisioni. Un altro importante professionista, consideratoFigura 2 - William H. Inmon pioniere del Data Warehouse accanto ad Inmon, è Figura 3 - Ralph Kimball(San Diego, 20 luglio 1945) (1944) Ralph Kimball.L’architettura caratteristica del Data Warehouse prevede, in genere, che i dati vengano estratti da variefonti esterne, costituite dai sistemi informatici che gestiscono le transazioni operative (OperationalApplications), raccolti in un’area di trasformazione (DW Staging Area), caricati nel Data Warehouse vero eproprio ed infine trasferiti ad un insieme di “Data Mart” (fiere dei dati specializzate, tramite cui i dativengono diffusi agli utenti finali), riferiti ai vari domini di interesse per gli analisti. I dati vengono copiati daun data base all’altro usando una tecnologia denominata genericamente ETL (Extract, Transform, Load) 4(Estrai, Trasforma, Carica) .4 http://data-warehouses.netbi ed analisi multidimensionale dei dati.docx 3/25 autore: ing. R. Perrotta
  • 4. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euFigura 4 - Tipica architettura Data WarehouseApplicazioni operative (Operational Applications)La ragione principale per cui le organizzazioni hanno bisogno di creare dei DW è che i loro dati sonodispersi e frammentati in una molteplicità di sistemi, che utilizzano sistemi operativi e piattaformeapplicative diverse in varie postazioni fisiche.Alcune informazioni risiedono sui sistemi gestionali aziendali, che presiedono, ad esempio, alla gestione diContabilità, Fatturazione, Vendite, Magazzino, Produzione, altre su sistemi dipartimentali quali Qualità,Risorse Umane, Schedulazione della Produzione, altre su sistemi remoti in outsourcing quali Paghe, SCM(Supply Chain Management - Gestione della catena di distribuzione), siti di e-commerce. Ogni sistemagestisce i dati di dettaglio della propria area applicativa, indipendentemente dagli altri; a volte gli stessi dativengono trattati in modo ridondante su diversi sistemi, generando problemi di coerenza per effetto didiversi metodi di trattamento, diverse fonti informative e diverse periodicità di elaborazione (ad esempioanagrafiche, listini, dati contabili dipartimentali, valutazioni di prestazione); spesso è difficile raccogliere evisualizzare tutte le informazioni sulla gestione aziendale per prendere le decisioni in tempo utile.Inoltre, i sistemi informatici per la gestione delle singole transazioni operative non sono progettati ingenere per fornire informazioni rapide sugli indicatori sintetici di risultato che interessano alla direzione edagli analisti.La sfida per il Data Warehousing è di poter consolidare rapidamente, pulire ed integrare dati originati dasvariati data base multipli che girano su piattaforme tecniche diverse in postazioni geografiche differenti.Processi ETLIl software ETL è un componente importante dell’architettura, che interconnette i vari data base nellediverse fasi del processo di generazione del DW.bi ed analisi multidimensionale dei dati.docx 4/25 autore: ing. R. Perrotta
  • 5. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euServe ad estrarre i dati, trasformare i valori di dati incoerenti, pulire, filtrare e caricare i dati nei data basedi destinazione. La schedulazione dei processi ETL deve essere pianificata con accuratezza, essendoun’attività critica da eseguire in modo coordinato e completo.Area di trasformazioneL’area di trasformazione (DW Staging Area) è una locazione temporanea in cui vengono copiati i dati daisistemi di origine. L’esigenza di quest’area deriva essenzialmente dalla necessità di coordinare i processiasincroni di estrazione dei dati e renderli tutti disponibili prima dell’inizio della fase di trasformazione.Ad esempio, potrebbe essere ragionevole estrarre i dati di vendita su base giornaliera, mentre questaperiodicità potrebbe non essere adatta ai dati finanziari, che vengono riconciliati su base mensile.Analogamente, in un’azienda globalizzata, potrebbe non essere possibile estrarre contemporaneamente idati di vendita di filiali che risiedono in continenti diversi con diversi fusi orari.Alcuni dati del DW possono essere persistenti, soprattutto se si tratta di dati storici, mentre altri possonoessere volatili, se rimangono in vita solo per un breve periodo di tempo.L’area di trasformazione, tuttavia, non è sempre presente nell’architettura, in quanto a volte i dati vengonoestratti direttamente verso il DW, soprattutto in ambienti in cui siano installati sistemi ERP integrati ed ilfenomeno della frammentazione dipartimentale e geografica sia ridotto.Data WarehouseLo scopo del data base detto propriamente “DW” è di integrare tutti i dati aziendali o dell’organizzazione. 5Contiene i “veri ” dati aziendali, che sono stati costruiti attentamente a partire dai vari sistemi gestionaliinterni ed esterni all’organizzazione stessa.La quantità di dati presenti nel DW è di norma massiccia. Essi sono accumulati ad un livello di dettagliogranulare. Ad esempio, ogni vendita viene registrata e correlata alle dimensioni di classificazione e analisiche interessano. Ciò consente di riepilogare, raggruppare e correlare i dati in molteplici modi, spessoinimmaginabili.Contrariamente a quanto si possa credere, il DW non contiene tutti i dati dell’organizzazione. Il suo scopo èinfatti quello di fornire le metriche chiave che sono necessarie all’organizzazione per le sue decisionitattiche e strategiche.Gli analisti ed i dirigenti che debbono prendere le decisioni non accedono direttamente al DW, ma tramitevari strumenti di interfaccia (front-end tools) che leggono i dati da specifici Data Mart specializzati perdominio o argomento applicativo.5 Il tema della “verità” dei dati o del loro “grado di verità” è ampiamente dibattuto nel campo del DataWarehousing.bi ed analisi multidimensionale dei dati.docx 5/25 autore: ing. R. Perrotta
  • 6. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euLa struttura del DW può essere “relazionale” oppure “dimensionale” a seconda di come l’organizzazioneintenda usare le informazioni. La discussione di questo aspetto verrà approfondita nei paragrafi successivi.Data MartI Data Mart vengono popolati estraendo i dati dal DW a beneficio dei vari gruppi di decisoridell’organizzazione.Ogni Data Mart contiene combinazioni differenti di tabelle, colonne e righe estratte dal DW generale. Adesempio, un’unità organizzativa o un gruppo di utenti che non ha bisogno dei dati storici potrebbe chiederedi inserire nel Data Mart solo le transazioni dell’anno corrente; oppure l’Ufficio del Personale potrebbeaver bisogno di vedere tutti i dettagli dei dipendenti, mentre i dati della paga o dell’indirizzo potrebberonon interessare gli analisti del Data Mart delle vendite.Infine, alcuni Data Mart potrebbero richiedere un aggiornamento giornaliero, mentre altri potrebberoessere aggiornati solo mensilmente.Tecnologia di accesso ai DW – OLAPLa tecnologia di accesso ai dati, caratteristica dei DW e della BI, è denominata OLAP - OnLine AnalyticalProcessing perché è orientata in modo specifico all’elaborazione di registrazioni ed interrogazioni perl’analisi dei dati aziendali. Essa risponde alle esigenze degli analisti di BI, che sono essenzialmente leseguenti: ottenere risposte rapide e coerenti ad interrogazioni basate su data base di ampie dimensioni; usare strumenti facili ed intuitivi per l’interrogazione e l’analisi, che consentano di: o esaminare i dati aziendali in forma riepilogata, rispetto a varie dimensioni di analisi, correlabili in modo dinamico, con la possibilità anche di: o esaminare i dati di dettaglio, che generano tali dati riepilogati.Questa tecnologia, per certi versi, si contrappone a quella orientata all’elaborazione delle transazioni,denominata OLTP – OnLine Transaction Processing, che è tipica dei sistemi gestionali operativi perapplicazioni di inserimento di documenti (data entry) e ricerca e reperimento di dati o interrogazionioperative e gestionali (data retrieval). È possibile ottenere informazioni a supporto delle decisioni e delleanalisi dei dati aziendali anche con la tecnologia OLTP, ma, soprattutto nel caso di grandi basi dati, questa èmeno efficiente dell’OLAP. Quest’ultima d’altra parte è particolarmente efficiente quando vengaimplementata su data base di tipo dimensionale anziché relazionale. Per comprendere meglio questeaffermazioni conviene riprendere i concetti fondamentali dei modelli di strutturazione dei dati“relazionale” e “dimensionale” ed esaminarne le caratteristiche rispetto alle esigenze della BI.bi ed analisi multidimensionale dei dati.docx 6/25 autore: ing. R. Perrotta
  • 7. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.eu Dal punto di vista storico i due modelli sono stati teorizzati da Edgar Frank (Ted) Codd6. I primi studi risalgono agli anni ‘60-’70 del secolo scorso; la consacrazione del modello relazionale risale agli inizi degli anni ‘80, quella del modello dimensionale agli inizi degli anni ‘907 Il modello relazionale8 Il modello relazionale è applicato in gran parte dei DBMS (Database Management System) in uso per le applicazioni gestionali di tipo transazionale e la sua conoscenza è ampiamente diffusa. In questo paragrafo, quindi, mi limiterò solo a citare alcuni concetti fondamentali e le caratteristiche da prendere in considerazione per il confronto con il modello dimensionale. Figura 5 - Edgar Frank Codd (23 agosto 1923 – 18 aprile 2003) La struttura fondamentale di questo modello è la “tabella”, cioè una struttura bidimensionale costituita da righe (record, tuple) e da colonne(attributi). La tabella è un insieme di righe, ciascuna delle quali è costituita da una combinazione di valoridegli attributi, posti in “relazione” tra loro (la tabella è una relazione). L’insieme delle tabelle costituisce ildata base.ID Nome Cognome Luogo Data Codice fiscale Qualifica nascita nascita1 Loris Degano Udine 15/05/1975 LRSDGN75E15L483O Operaio2 Fulvio Ribis Moggio 25/04/1981 FLVRBS81D25F265K Impiegato3 Aldo De Stalis Udine 30/05/1978 LDADTL78E30L483F DirigenteTabella 1 - Esempio di tabella (Anagrafica dipendenti)Ogni riga (record) della tabella è un’“istanza” (v. Tabella 2 - Concetti base sulle tabelle) delle combinazionidi attributi costitutive della tabella, cioè l’insieme dei valori degli attributi, che caratterizzano uno specificoelemento della tabella considerata. Ad esempio, se consideriamo la tabella anagrafica dei Dipendenti diun’azienda, ogni istanza si riferisce ad un particolare dipendente dell’azienda.Per distinguere una riga da unaltra si utilizza il concetto di "chiave primaria", che è l’insieme di attributiche si sceglie per identificare univocamente una riga della relazione.6 Edgar Frank Codd (23 agosto 1923 – 18 aprile 2003) era uno scienziato informatico inglese che, mentrelavorava per IBM, inventò il modello relazionale per la gestione dei data base, la base teorica per i database relazionali.7 http://www.olap.com/w/index.php/Category:OLAP_History8 Tratto da http://database.html.it/guide/lezione/1308/il-modello-relazionale/ e altribi ed analisi multidimensionale dei dati.docx 7/25 autore: ing. R. Perrotta
  • 8. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euLe tabelle di un data base vengono associate mediante le chiavi. Ad esempio, per specificare che undipendente dell’azienda è nato nel comune di Udine si assegnerà all’istanza del dipendente il valoredell’attributo “Comune di nascita” costituito dalla chiave primaria dell’entità “Comuni” corrispondente adUdine. Tale attributo di collegamento viene denominato “chiave esterna”.Tabella 2 - Concetti base sulle tabelleUno dei grandi vantaggi del modello relazionale è che è possibile operare sulle tabelle con l’algebra degliinsiemi. Tutte le manipolazioni possibili sulle tabelle sono ottenibili grazie alla combinazione di cinque solioperatori: RESTRICT, PROJECT, TIMES, UNION e MINUS. Per comodità sono stati anche definiti treoperatori addizionali che comunque possono essere ottenuti applicando i soli cinque operatorifondamentali: JOIN, INTERSECT e DIVIDE. Gli operatori relazionali ricevono come argomento una tabella oun insieme di tabelle e restituiscono una singola tabella come risultato.Normalmente, tuttavia, lutente non utilizza direttamente questi operatori sul database, ma interagiscemediante l’SQL - Structured Query Language, progettato per leggere, modificare e gestire dati memorizzatiin un data base relazione (RDBMS), per creare e modificare schemi di database, per creare e gestirestrumenti di controllo ed accesso ai dati. Le istruzioni SQL vengono scomposte dal DBMS in una serie dioperazioni propriamente relazionali.Il DBMS è in grado di effettuare ricerche di record con prestazioni elevate grazie alla definizione di “indici”.Un indice è una struttura in cui vengono memorizzati e ordinati i valori di uno o più attributi (colonne) diuna tabella di database, associando ad essi i puntatori ai record che li contengono. Se si cerca unadeterminata istanza in base al valore di un attributo indicizzato, lindice agevola la ricerca e la rende piùbi ed analisi multidimensionale dei dati.docx 8/25 autore: ing. R. Perrotta
  • 9. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.eurapida rispetto a una ricerca sequenziale in tutti i record della tabella (mediante una ricerca dicotomica). Ildatabase utilizza lindice in modo analogo allindice di un libro: vi cerca un determinato valore e quindisegue il puntatore alla pagina che contiene tale valore.Tali indici migliorano la velocità di ricerca ed estrazione dei dati dalle tabelle, ma rallentano le operazioni discrittura, dal momento che comportano anche l’aggiornamento dell’indice, ed aumentano l’occupazione dispazio su disco.Il modello dimensionale9 A differenza del modello relazionale, il modello dimensionale prevede che i dati vengano memorizzati all’interno di strutture denominate “cubi”. Le dimensioni del cubo sono associate con i “fatti” (detti anche “misure”) così come, le coordinate x, y e z sono associate ad un punto nella descrizione cartesiana dello spazio. Nel nostro caso, le dimensioni identificano una cella all’interno della quale sono memorizzate le misure. In termini relazionali, i fatti sono in relazione uno-a-molti con leFigura 6 - Cubo multidimensionale dimensioni.Per maggiore chiarezza, facciamo riferimento al seguente caso di studio.La Cablaggi Forniture SpA vende cavi per cablaggi strutturati e gestisce un data base delle vendite. Ledimensioni di analisi degli affari sono usualmente: Clienti, Prodotti e Tempo (mese, trimestre, anno, ecc.).La quantità di vendita per un prodotto specifico (Cavo Cat5e) ad un cliente specifico (Ferrari) durante unospecifico periodo di tempo (Agosto 2011) è una “misura”. Le dimensioni sono memorizzate in tabelleindividuali separate come lo sono i fatti; nel nostro caso la misura è la quantità di vendita. In questo modo,la tabella dei fatti, con terminologia relazionale, è una tabella figlio delle tabelle dimensionali e lo schemadella struttura è “a stella”.Ma qui l’analogia finisce. L’accesso alle misure con la struttura relazionale dovrebbe avvenire mediante gliindici memorizzati nelle colonne cliente, prodotto o tempo della tabella dei fatti.9 Tratto da: Data Warehousing and OLAP : Cube-Organized Materialized Views; Posted by Aisyah Runi onSaturday, January 3, 2009 - http://oraclezine.blogspot.com/2009/01/data-warehousing-and-olap-cube.htmlbi ed analisi multidimensionale dei dati.docx 9/25 autore: ing. R. Perrotta
  • 10. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euCon l’approccio dimensionale, si accede alle celle specifiche (contenenti le misure) attraverso il cubo: nelnostro esempio, andando alla sezione che contiene il tempo (Agosto 2011); poi il prodotto (Cavo Cat5e);ed infine il cliente (Ferrari). L’accesso ai dati viene gestito in modo inverso: nell’approccio “relazionale” siricerca il dato (nel nostro caso il “fatto”, la “misura”) e si decodifica la dimensione, facendo uso degli indici,mentre nell’approccio “dimensionale” si ricercano le dimensioni, si rilevano i puntatori e, tramite lecoordinate così identificate, si individua la misura.Il software di gestione del data base sa come andare a queste sezioni calcolando la destinazione come sefosse in una schiera e non in una tabella, cioè mediante le coordinate e non mediante gli indici.Ad esempio, supponiamo che le dimensioni siano organizzate nel seguente modo: Dimensione Tempo := {Maggio,Giugno,Luglio,Agosto} Dimensione Cliente := {ENI,Pirelli,Ferrari,Telecom} Dimensione Prodotto := {Cavo Fibra,Cavo Cat6e,Cavo Cat5e,Cavo Seriale}Per trovare la misura per Ferrari + Agosto + Cavo Cat5e il motore sviluppa la navigazione in questo modo: 1. “Agosto 2011” è il quarto elemento della schiera denominata Tempo, così va alla quarta cella della dimensione tempo del cubo. 2. “Cavo Cat5e” è il terzo elemento della schiera Prodotto, quindi va al terzo elemento. 3. “Ferrari” è il terzo elemento della schiera Cliente, quindi va al terzo elemento.In questo modo si arriva alla misura desiderata. Tutto viene eseguito senza ricorrere ad indici dal momentoche gli indicatori di dimensione servono come puntatori di schiera. Analogamente, se si vogliono calcolarele vendite totali a tutti i clienti di Agosto 2011, si opera nello stesso modo appena detto, eccetto che alpasso 3 si totalizzano le misure di tutti gli elementi della schiera senza andare a nessuna cella specifica.Nell’approccio tipico del data base relazionale, si dovrebbe fare la “join” (unione) della tabella dei “fatti”con tutte le dimensioni. Ogni volta che si ricercano dati, occorrerebbe selezionare il singolo dato dallatabella dei fatti, eventualmente tramite indici, e unirlo con ogni dimensione una a una, ancora tramiteindici. Sebbene sia tecnicamente possibile, questo approccio è quasi irrealizzabile su grandi data base.In alternativa, per evitare le strutture a cubo, si potrebbe ricorrere alle “viste”, che sono delle tabellegenerate mediante “query” sulle tabelle del data base ed evitano di eseguire “join” a richiesta. Nel casoprecedente, per rispondere a tutte le possibili combinazioni delle tre dimensioni, ognuna di quattroelementi, occorrerebbe prevedere 4x4x4=64 viste diverse. Ognuna di queste viste dovrebbe essereaggiornata ogniqualvolta intervenissero cambiamenti nei dati. Consegue che la creazione e la gestione diqueste viste richiederebbe un grande dispendio di spazio su disco e sarebbe molto svantaggiosa nel caso digrandi masse di dati da analizzare su molte dimensioni.Da quanto detto, è evidente che le strutture dimensionali sono più prossime a “parallelepipedi” che a verie propri cubi, dal momento che le schiere delle dimensioni possono avere ampiezze diverse, ma,soprattutto, sono dotate in genere di più di tre dimensioni, per cui vengono anche denominate, conlinguaggio iperbolico, “ipercubi”.bi ed analisi multidimensionale dei dati.docx 10/25 autore: ing. R. Perrotta
  • 11. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euMembri delle Dimensioni 10, Gerarchie11e Formule12A maggiore chiarimento del funzionamento dei data base dimensionali e delle loro differenze rispetto aquelli relazionali, è opportuno rilevare che le dimensioni possono essere specificate mediante due tipi dimembri: i Membri di Dettaglio ed i Membri Aggregati. Ad esempio, nella dimensione Tempo potrebberoessere specificati come Membri di Dettaglio i mesi (Gennaio, Febbraio, Marzo, ecc.) e come MembriAggregati 1° Trimestre, 2° Trimestre, ecc., dove il 1° Trimestre sarà definito come somma di Gennaio,Febbraio e Marzo, il 2° Trimestre come somma di Aprile, Maggio, Giugno e così via. I Membri di dettagliosono espressi al livello minimo di granularità disponibile, mentre i Membri Aggregati sono riepiloghi di talidati.Una volta definiti i Membri di una Dimensione, la Gerarchia di questi Membri deve essere definita a suavolta per determinare l’aggregazione dei Membri delle Dimensioni.Nel nostro caso, dovremo specificare che i Membri Gennaio, Febbraio e Marzo sono gerarchicamentedipendenti da 1° Trimestre per definire la regola di aggregazione dei dati dei mesi nel corrispondenteMembro Aggregato.La formula di base per l’aggregazione dei Membri è la Somma, ma è possibile specificare anche altreformule per eseguire calcoli matematici tra tutti i membri del cubo. Con tali formule si possono eseguirecalcoli per popolare celle, insiemi di celle e perfino interi nuovi cubi.10 http://www.olap.com/w/index.php/Example_211 http://www.olap.com/w/index.php/Example_312 http://www.olap.com/w/index.php/Example_5bi ed analisi multidimensionale dei dati.docx 11/25 autore: ing. R. Perrotta
  • 12. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euAnalisi multidimensionale dei dati13Operazioni tipiche previste per manipolare i dati in un modello logico multidimensionale sono le seguenti.SliceFigura 7 - SliceÈ l’operatore che permette di vedere il cubo trasversalmente (letteralmente “a fette”), fissando un valoreper almeno una delle dimensioni e analizzando i dati relativamente a tutte le altre, cioè concentrandol’attenzione su un ipercubo (n-1) dimensionale del cubo n-dimensionale (contrazione dimensionale)DiceFigura 8 - DiceÈ l’operatore per cui fissato un intervallo su ciascuna dimensione, si analizza una riduzione volumetrica,senza contrazioni del numero di dimensioni.13 Tratto da Donato Malerba - Business Intelligence Technologies - Dipartimento di Informatica Universitàdegli Studi, Bari, Italy - http://www.di.uniba.it/˜malerbabi ed analisi multidimensionale dei dati.docx 12/25 autore: ing. R. Perrotta
  • 13. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euDrill-down e Roll upFigura 9 - Drill down e Roll upDrill down è l’operatore che consente di scendere nel dettaglio lungo una o più dimensioni gerarchiche.Esempio: mediante un’operazione di drill-down è possibile passare da un’analisi delle vendite per provinciaad un’analisi più particolareggiata, distinguendo in base alle differenti città. Questo operatore è utilequando si vuole analizzare una causa o un effetto per qualche fenomeno osservato nei dati aggregati.Roll-up o consolidation o drill-up è l’operatore duale del drill-down, in quanto consente di risalire lungouna o più dimensioni gerarchiche. Esempio: partendo dall’analisi di un particolare prodotto si potrebbepassare all’analisi di un’intera gamma di prodotti.Drill-across è l’estensione dell’operatore di drilldown, che consente di scendere nel dettagliocontemporaneamente su più dimensioni.PivotFigura 10 - PivotL’operazione, detta anche Rotate (rotazione), consente di riorientare la vista multidimensionale dei dati,ovvero di poter cambiare la dimensione di analisi. Se lo spazio di analisi è m-dimensionale, sono possibilim! prospettive diverse di analisi dei dati.bi ed analisi multidimensionale dei dati.docx 13/25 autore: ing. R. Perrotta
  • 14. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euTipi di sistemi OLAPLa tecnologia OLAP può essere implementata sia sulla base di data base dimensionali che relazionali, anchese dalla discussione precedente è evidente che il modello nativo per l’OLAP è quello dimensionale. Incommercio, infatti, esistono tre tipologie di sistemi OLAP: multidimensionale (MOLAP - MultidimensionalOLAP), relazionale (ROLAP - Relational OLAP) e ibrido (HOLAP - Hybrid OLAP) 14.MOLAPÈ la tipologia che realizza il modello dimensionale vero e proprio. Lavora con un database di riepilogoavente un motore specifico per lanalisi multidimensionale e crea le "dimensioni" con un misto di dettaglioed aggregazioni.Le interrogazioni sono ottimizzate tramite strumenti di query proprietari.Vantaggi elevata efficienza nell’esecuzione di query complesse stretta aderenza al modello concettualeSvantaggi elevata occupazione di spazio (viene allocato lo spazio per ogni possibile ennupla dimensionale) mancanza di standard, sia di rappresentazione dei dati che di interrogazione scarsa familiarità con il modello da parte degli operatoriPer tutti questi motivi non è comunemente usato.15ROLAPLavora direttamente con database relazionali; i dati e le tabelle delle dimensioni sono memorizzati cometabelle relazionali e nuove tabelle sono create per memorizzare le informazioni di aggregazione.Le interrogazioni sono realizzate mediante query SQL standard.Vantaggi minima occupazione di spazio elevata conoscenza degli strumenti relazionali da parte degli operatoriSvantaggi esecuzione di query poco efficiente14 http://it.wikipedia.org/wiki/OLAP15 Lorenzo Sarti – Datawarehousing – Università di Siena – Sistemi informativi per la Gestione Aziendale2009-10bi ed analisi multidimensionale dei dati.docx 14/25 autore: ing. R. Perrotta
  • 15. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.eu le soluzioni per il miglioramento della velocità di risposta implicano un aumento della complessità e dell’occupazione di spazioHOLAPÈ una soluzione intermedia che combina i vantaggi di MOLAP e ROLAP Data warehouse realizzato su base relazionale o semplicità di sviluppo e di manutenzione delle procedure di popolamento dei fatti o scalabilità del sistema Data mart realizzati su base multidimensionale o efficienza nelle interrogazioni o dimensioni contenuteSchemi multidimensionali su basi di dati relazionaliLo schema relazionale comunemente usato per rappresentare un “cubo” è detto “a stella”. Lo schemaderiva immediatamente dal diagramma ER (Enti-relazioni) rappresentativo del modello concettuale deidati.Figura 11 - Modello ERAl centro della stella viene posta una tabella, detta del “fatto”, contenente gli attributi caratteristici delfatto da analizzare, che sono i campi delle misure (un campo per ogni misura) e le chiavi delle dimensioni(una chiave esterna per ogni dimensione); sulle punte della stella vengono poste le tabelle delledimensioni: una per ogni dimensione di analisi, contenente un campo per ogni attributo dimensionaledella gerarchia che ha radice nella dimensione rappresentata (denormalizzazione completa). Il vantaggiodello schema è la massima velocità nel reperimento delle informazioni; gli svantaggi sono la ridondanzabi ed analisi multidimensionale dei dati.docx 15/25 autore: ing. R. Perrotta
  • 16. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.eudelle tabelle delle dimensioni, lo spazio occupato, le anomalie e l’elevata complessità di aggiornamento incaso di cambiamento delle gerarchie (che sono i difetti tipici delle tabelle denormalizzate).Figura 12 - Schema a stella per un Data Mart delle VenditeNel caso in cui le tabelle delle dimensioni siano normalizzate, lo schema assume la forma del “fiocco dineve”, in quanto la tabella delle dimensioni viene decomposta in tante tabelle normali (in genere in terzaforma normale) quanti sono i livelli della gerarchia, e la stella perde la sua forma.bi ed analisi multidimensionale dei dati.docx 16/25 autore: ing. R. Perrotta
  • 17. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euFigura 13 - Schema a fiocco di neve per un Data Mart delle VenditeNel caso estremo della massima denormalizzazione dello schema, il cubo sarà rappresentato da una solatabella (detta in gergo “flat file” (v. Tabella 3 - Flat File per un Data Mart delle Vendite)), in cui le misure ele dimensioni sono attributi della stessa unica tabella. Le istanze delle dimensioni vengono registrate inmodo esplicito su ogni record (tupla) contenente le misure dei fatti, amplificando al massimo la ridondanzae le anomalie di aggiornamento. Questa struttura, d’altra parte, rende immediato l’accesso alle decodifichedimensionali per ogni misura. Tuttavia, nel caso specifico della BI, in cui i dati da analizzare sono, in genere,statici e non soggetti ad aggiornamenti, questi difetti non sono molto gravi e giustificano anche l’uso diquesta soluzione. Vedremo, anzi, che questa è la soluzione di base per le analisi di BI fatta tramite Excelcon tecnologia push.Nel caso in cui alcune dimensioni siano comuni a più tabelle dei fatti, lo schema complessivo assume laforma della “costellazione” di stelle.bi ed analisi multidimensionale dei dati.docx 17/25 autore: ing. R. Perrotta
  • 18. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euGiorno Mese Trimestr Anno Filiale Comun Provinci Regione Stato CodiceA Agente Area CodiceCli Cliente TipoCliente CodiceAr Articolo TipoArticolo Material Quantità e e a g t e 13 1 1 2012 Udine Udine UD FVG Italia 103 Lirussi Nord 136237 Gremese Professionale 100023 Viti 4 Fer01 Acciaio 2.000 mm 13 1 1 2012 Udine Udine UD FVG Italia 115 Vezzil Nord 284569 Rugo Professionale 100023 Viti 4 Fer01 Acciaio 5.000 mm 13 1 1 2012 Lazio Latina LT Lazio Italia 235 Ricci Centro 933645 Fontana Professionale 100023 Viti 4 Fer01 Acciaio 1.500 mm 14 1 1 2012 Napoli Napoli NA Campani Italia 467 Cacace Sud 254912 D coop Aziendale 100023 Viti 4 Fer01 Acciaio 10.000 a mm 15 4 2 2012 Udine Udine UD FVG Italia 103 Lirussi Nord 136237 Gremese Professionale 100234 Viti 2 Fer01 Acciaio 2.000 mm 23 5 2 2012 Udine Udine UD FVG Italia 115 Vezzil Nord 284569 Rugo Professionale 100724 Viti 9 Fer01 Acciaio 5.000 mm 31 7 3 2012 Lazio Latina LT Lazio Italia 235 Ricci Centro 933645 Fontana Professionale 100127 Viti 6 Fer03 Ottone 1.500 mm 25 10 4 2012 Napoli Napoli NA Campani Italia 467 Cacace Sud 254912 AZ srl Aziendale 200425 Viti 8 Fer03 Ottone 10.000 a mmTabella 3 - Flat File per un Data Mart delle Venditebi ed analisi multidimensionale dei dati.docx 18/25 autore: ing. R. Perrotta
  • 19. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euStrumenti di presentazione dei dati di BI16Esistono vari strumenti di presentazione dei dati di BI residenti nei DW e nei Data Mart, che ne rendonofruibile il contenuto ad analisti e decisori. Questi, in genere, sono inesperti delle tecnologie informatiche ehanno bisogno di strumenti intuitivi, semplici e flessibili per eseguire i loro controlli, studi e indagini. L’usodi strumenti appropriati può garantire che le informazioni giuste arrivino alle persone giuste al tempogiusto attraverso i canali giusti e per questo motivo sono stati messi a punto diversi strumenti cherispondono alle varie esigenze degli utenti.Allarmi automaticiGli allarmi automatici sono messaggi di attenzione che vengono generati automaticamente da programmidi monitoraggio studiati per controllare che alcuni parametri critici presenti nel DW non superino unasoglia prefissata oppure che non vengano raggiunti secondo le attese. Questi allarmi possono esserecomunicati al responsabile via e-mail, messaggi telefonici o altri tipi di notifiche elettroniche. In genere isistemi di monitoraggio sono progettati in modo che sia agevole modificare le regole di controllo,adattandole alle mutevoli esigenze dell’organizzazione. Si facilita in questo modo l’attività di supervisionedei responsabili, che possono intervenire tempestivamente per evitare problemi più gravi.A volte è possibile associare alla rilevazione dei valori critici dei parametri di controllo anche delle azioni ditelecomando per l’esecuzione di procedure di sicurezza. Queste azioni di controllo e comando sono simili aquelle offerte dai sistemi SCADA (dallinglese "Supervisory Control And Data Acquisition", cioè "controllo disupervisione e acquisizione dati" ) o nei sistemi di livello superiore DCS (Distributed Control System) per ilcontrollo e comando automatico di sistemi industriali di produzione.Strumenti di Data MiningQuesti strumenti sono motori analitici che vengono usati per scoprire relazioni nascoste tra i dati del DW.Gli analisti se ne avvalgono per acquisire nuove conoscenze attraverso l’identificazione e l’osservazione ditendenze, problemi e anomalie.Dal momento che l’ambiente gestionale è molto dinamico, risulta spesso difficoltoso riconoscerevelocemente nuovi modelli e tendenze di affari. Gli strumenti di Data Mining aiutano le aziende aidentificare prontamente problemi e opportunità e prendere tempestivamente le decisioni appropriatesulla base delle nuove conoscenze acquisite.Questi strumenti sono spesso utilizzati nel campo del marketing. Ad esempio, la rilevazione che l’acquistodi un prodotto di marca risulta statisticamente associato ad una serie di altri prodotti meno conosciuti, puòindurre la direzione a lanciare una campagna di “sottocosto” sul prodotto di marca per attrarre compratoriche compenseranno la perdita di margine nella vendita di questo prodotto con i maggiori marginiconseguiti sui prodotti sconosciuti, ma di largo consumo.16 http://data-warehouses.net/tools/index.htmlbi ed analisi multidimensionale dei dati.docx 19/25 autore: ing. R. Perrotta
  • 20. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euOLAPDella tecnologia OLAP abbiamo già parlato in precedenza. In questa sede ricordiamo che OLAP è l’acronimodi On-Line Analytical Processing (Elaborazione analitica on-line). Questi strumenti offrono agli utenti mezzimolto potenti per identificare e osservare tendenze e per scavare in profondità (drill-down) nella massa deidati per rivelare i dettagli che sottendono a tali tendenze, utilizzando gli operatori tipici dell’analisimultidimensionale.Come dice il nome stesso, sono strumenti orientati all’”analisi” dei dati e non alla gestione di “transazioni”operative mediante elaborazioni on-line. Molte organizzazioni stanno abbandonando la reportisticacartacea, statica sui dati aziendali a favore di questi strumenti di accesso on-line.Cruscotti aziendali (Performance Dashboards)I cruscotti aziendali sono strumenti di presentazione dei dati del DW che consuntivano in forma grafica leprestazioni gestionali e le confrontano con gli obiettivi misurabili.Sono rivolti ai decisori di alto livello che hanno bisogno di vedere a colpo d’occhio come stanno andando gliaffari. Tipicamente vengono mostrati gli obiettivi strategici dell’organizzazione, i loro andamenti storici e letendenze. Questi indicatori vengono spesso detti “key performance indicators (KPI)” (indicatori chiave diprestazione) e si riferiscono agli aspetti finanziari, marketing, produttivi, commerciali, di crescita e ad altremetriche importanti.Fogli di calcolo ExcelI fogli di calcolo di Excel sono spesso usati nelle applicazioni di BI per accedere ai dati e presentarliall’utente. Questi fogli sono strumenti potenti, flessibili, relativamente economici e comodi da usare permolti analisti e responsabili. Essi possono sfruttare due diverse tecnologie, che potremmo definire 17rispettivamente “pull” e “push”Tecnologia pullPrima che si diffondessero i DW, I vari responsabili avevano difficoltà ad accedere ai dati aziendali. Eranecessario riempire tabelle da molteplici fonti informative e integrare manualmente i dati raccolti. Questoprocesso era molto lento e soggetto ad errori. Inoltre, nel momento in cui gli utenti iniziarono a registrarecopie personali dei dati sensibili aziendali nei propri PC nacquero anche problemi di privacy, ridondanza eaggiornamento dei dati.In ambiente DW, un sottoinsieme di dati aziendali puliti e integrati viene copiato nei Data Mart. Se ilmotore OLAP utilizzato lo consente, il foglio di calcolo accede direttamente al Data Mart ed opera quindisempre su dati aggiornati. Solo se strettamente necessario, sarà consentito di registrare questi dati sulproprio PC. Il foglio di calcolo viene utilizzato sia per presentare che per inserire dati nei cubi, secondo lepolitiche di riservatezza e integrità stabilite.17 http://www.olap.com/w/index.php/Category:OLAP_and_Excelbi ed analisi multidimensionale dei dati.docx 20/25 autore: ing. R. Perrotta
  • 21. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euTecnologia pushNel caso in cui il motore OLAP non sia integrato con Excel, gli utenti devono utilizzare l’interfaccia utentedel data base, da cui estrarre i dati, per sceglierli e scriverli in blocco su Excel. In questo caso, come giàdetto nel paragrafo “Schemi multidimensionali su basi di dati relazionali”, si adotta lo schema relazionaledel “flat file”, costituito da una tabella unica denormalizzata, in cui le righe (tuple, record) sono costituiteda attributi contenenti sia i fatti da analizzare che la decodifica delle dimensioni di analisi. Tale “flat file”può essere costruito anche direttamente, senza necessariamente prelevare dati da altre fonti digitali: ades. quando si parte da una raccolta di questionari strutturati per la rilevazione e la misurazione di fattispecifici, quali, ad esempio, questionari sulla Customer Satisfaction, sul gradimento di Corsi di Formazione,sugli Exit Poll ed altri analoghi.Excel offre le funzioni di Tabella Pivot che consentono agli utenti di separare i “fatti” dalle “dimensioni” ed,inoltre, di filtrare, riordinare e aggregare i fatti misurati. È possibile in questo modo eseguire le operazionitipiche dell’analisi multidimensionale dei cubi (SLICE, DICE, DRILL DOWN, ROLL UP), oltre al “pivoting”propriamente detto.Excel fornisce anche rappresentazioni grafiche che permettono all’utente finale di presentare leinformazioni in svariate forme. Queste possono essere facilmente inserite in documenti MS Word,PowerPoint, presentazioni, pagine web, ecc.La BI all’Ordine degli IngegneriSistema informatico dell’OrdineIl sistema informatico dell’Ordine degli Ingegneri della Provincia di Udine è composto dai seguentisottosistemi: Gestionale, che supporta i processi di: o Manutenzione dell’Albo professionale o Contabilità economica e finanziaria Office: o Posta elettronica o Elaborazione dei documenti di testo o Valutazione di Gradimento dei Corsi di formazione Sito Web istituzionale: o Area Pubblica:  Pubblicazione Albo  News  Portale della Formazione o Aree Riservate:  Agli Iscritti per la manutenzione delle Competenze professionali  Alle PA locali per la interrogazione degli Elenchi PEC degli Iscritti (Posta Elettronica certificata)bi ed analisi multidimensionale dei dati.docx 21/25 autore: ing. R. Perrotta
  • 22. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euIl Data base dell’Albo per il Sito istituzionale è aggiornato periodicamente mediante un processo “batch”asincrono a partire dal Data Base gestionale, a cui è attribuita la responsabilità della manutenzionecorrente dell’Albo.Applicazioni BILe applicazioni di BI dell’Ordine sono state progettate per supportare: La Funzione designativa mediante il Data Mart dell’Albo, e La Formazione, mediante il Data Mart della Valutazione di Gradimento dei Corsi.I due Data Mart non sono integrati in un vero e proprio DW, né sono integrati tra loro, sebbene siapossibile, in via teorica, integrarli in una costellazione, che condivida la dimensione degli Iscritti.Il Data Mart dell’Albo per la Funzione designativa“In forza di alcune norme di legge o regolamentari, ovvero per prassi invalsa presso diverseAmministrazioni, oppure per iniziativa di privati, il Consiglio dell’Ordine è spesso investito del compito didesignare terne o singoli iscritti all’Albo per lo svolgimento di funzioni da assolvere per diretto mandato delsoggetto richiedente.”18 Per svolgere questa funzione il Consiglio dell’Ordine deve effettuare unavalutazione dei titoli, della formazione e dell’esperienza in capo ai designandi. Le risorse informative adisposizione dei Consigli sono, in genere, scarse, essendo limitate ai titoli di studio, dichiarati all’attodell’iscrizione, alle informazioni che il Consiglio raccoglie attraverso i propri membri per i contatti di lavoroche intervengono con gli iscritti o per la notorietà pubblica delle opere di questi. Allo scopo di estendere laconoscenza delle competenze a tutti i propri iscritti, l’Ordine di Udine ha messo a loro disposizione, inun’apposita area riservata del sito istituzionale, la possibilità di dichiarare le proprie competenze, acquisitetramite i corsi di formazione e l’esperienza professionale, ed inserire il proprio curriculum professionale. Almomento attuale, le competenze che è possibile dichiarare si riferiscono ad un insieme strutturato e finitodi conoscenze e capacità tecniche. Non vengono trattate le competenze trasversali, relazionali e gestionali,che sono parte essenziale del profilo professionale dell’ingegnere, ma, in genere, non sono specificate nellerichieste di designazione.A partire dal Data Base del sito, tramite un processo ETL di estrazione dei dati, viene generato un DataMart, riferibile allo schema relazionale di Figura 14, ma in realtà costituito da un “flat file” completamentedenormalizzato, analizzabile tramite Tabelle Pivot di Excel.18 Giancarlo Modonesi, La professione di ingegnere, Editrice Clueb Bologna, 1992, pag. 46bi ed analisi multidimensionale dei dati.docx 22/25 autore: ing. R. Perrotta
  • 23. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euFigura 14 - Il Data Mart dellAlbo dellOrdine degli Ingegneri di UdineLa funzione principale del Data Mart è quella di misurare il numero di iscritti in possesso di una o piùcompetenze, mediante operazioni di “Slice and Dice” sull’ipercubo delle Competenze degli Iscritti, eprodurre l’elenco di quelli che rispondono ai requisiti mediante un’operazione di “Drill down”. L’elenco puòessere ordinato per Sezione, Settore, Posizione e Luogo di lavoro in modo da rilevare sia l’anzianità diiscrizione che la vicinanza alla sede del richiedente.Il Data Mart della Valutazione di Gradimento dei CorsiA partire dal 2010 l’Ordine degli Ingegneri ha iniziato a rilevare in modo sistematico le valutazioni digradimento dei Corsi di formazione da parte degli iscritti partecipanti. La rilevazione viene effettuata a finecorso mediante la somministrazione di un modulo che richiede i seguenti dati: Nome e Cognome dell’iscritto partecipante Titolo del Corso (Evento) Data dell’edizione del Corso Nome e Cognome del Docente Rilevanza dell’evento per la propria professione; Efficacia dell’azione formativa; Capacità didattica del o dei docenti; Durata dell’evento; Calendario della programmazione;bi ed analisi multidimensionale dei dati.docx 23/25 autore: ing. R. Perrotta
  • 24. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.eu Orario delle sessioni formative; Organizzazione generale dell’evento; Valutazione sintetica globale; Domanda 9 Domanda 10 CommentiI dati vengono registrati nel Data Base delle Valutazioni di Gradimento su cui è fondato un Data Mart,riferibile allo schema relazionale di Figura 15, ma in realtà costituito da un “flat file” completamentedenormalizzato, analizzabile tramite Tabelle Pivot di Excel.Figura 15 - Il Data Mart della Valutazione di Gradimento dei Corsi dellOrdine degli Ingegneri di UdineLe analisi principali a favore della Commissione Formazione, che presiede alla pianificazione eprogrammazione della Formazione, sono le seguenti: Valutazione media di gradimento della Formazione per tutti, parte o singoli Corsi, con “Drill down” sulle valutazioni dei singoli partecipanti; Valutazione media di gradimento dei Docenti per tutti, parte o singoli Corsi; Trend di evoluzione del gradimento nel tempo; Analisi dei Mezzi di Informazione per la promozione dei Corsi.La costellazione dei Data Mart dell’OrdineA titolo puramente esemplificativo la Figura 16 mostra lo schema relazionale della costellazione di DataMart che si potrebbe ottenere mediante la condivisione della tabella dimensionale degli Iscritti. In questocaso sarebbe possibile estendere le funzioni del Data Mart della Formazione con la possibilità di analizzarele pricipali misure anche per Sezione, Settore e Luogo di lavoro.bi ed analisi multidimensionale dei dati.docx 24/25 autore: ing. R. Perrotta
  • 25. Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: perrotta@vertical.it PEC: raffaele.perrotta@ingpec.euFigura 16 - La costellazione dei Data Mart dell’Ordine degli Ingegneri di Udinebi ed analisi multidimensionale dei dati.docx 25/25 autore: ing. R. Perrotta