• Save
Intervento su Data governance (genn 2009) parte 2
Upcoming SlideShare
Loading in...5
×
 

Intervento su Data governance (genn 2009) parte 2

on

  • 1,214 views

Intervento su "Iniziative di Data governance in regione Piemonte" - Seminario del Corso di Rappresentazione dell’Informazione Università degli Studi di Milano – Bicocca...

Intervento su "Iniziative di Data governance in regione Piemonte" - Seminario del Corso di Rappresentazione dell’Informazione Università degli Studi di Milano – Bicocca
(12/01/2009) - seconda parte

Statistics

Views

Total Views
1,214
Views on SlideShare
1,205
Embed Views
9

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 9

http://www.linkedin.com 9

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • The integrated framework shown in this slide should provide business users with a seamless environment that gives them easy, but secure, access to the business processes, business information, and collaboration tools they need to do their jobs. Furthermore, the framework should make it easy for IT staff to evolve with new developments in information and collaboration technologies, and allow them to install products without the need for significant integration work. An integrated business process, business information, and collaboration framework can be built using best of breed-of-breed tools, using suites of products purchased from multiple vendors, or using an integrated platform supplied by a single vendor. Whereas purchasing best-of-breed products may, in theory, provide the best functionality, experience shows that often this functionality cannot be fully realized because products cannot be seamlessly integrated. Integrating best-of-breed products is complex and resource intensive. This complexity leads to project delays and frustration by business users because products do not work well with each other. Often the most effective solution for the rapid deployment of a smart business is to buy an integrated platform from a single vendor, and integrate any missing features using best-of-breed products. This enables projects to be deployed faster, and provides better functionality and usability for business users. The single platform approach also usually results in a lower total cost of ownership.
  • Obiettivi del progetto: formalizzare la nozione di certificato di qualita’ dei dati Capire come il certificato interagisce con il client (viene fornito al client e il client lo elabora? In che forma viene fornito al client? Viene utilizzato nell’ambito di un agreement tra il provider e il client per filtrare i dati e fornire solo quelli che raggiungono un livello buono di qualita’? Il client paga di piu’ dati di buona qualita’; il provider paga penali per dati di cattiva qualita’?) Effettuare modelli di stima della qualita’ sulla base degli indicatori contenuti nel certificato Individuare diverse opzioni per il modello di businnes Descrivere un’architettura di supporto al modello Realizzare un prototipo dimostrativo basato sugli ambienti software disponibili presso il CSI Piemonte.
  • Obiettivi del progetto: formalizzare la nozione di certificato di qualita’ dei dati Capire come il certificato interagisce con il client (viene fornito al client e il client lo elabora? In che forma viene fornito al client? Viene utilizzato nell’ambito di un agreement tra il provider e il client per filtrare i dati e fornire solo quelli che raggiungono un livello buono di qualita’? Il client paga di piu’ dati di buona qualita’; il provider paga penali per dati di cattiva qualita’?) Effettuare modelli di stima della qualita’ sulla base degli indicatori contenuti nel certificato Individuare diverse opzioni per il modello di businnes Descrivere un’architettura di supporto al modello Realizzare un prototipo dimostrativo basato sugli ambienti software disponibili presso il CSI Piemonte.
  • 1) Tipo rapporto di lavoro

Intervento su Data governance (genn 2009) parte 2 Intervento su Data governance (genn 2009) parte 2 Presentation Transcript

  • La raccolta e la conservazione della risorsa dati Caricamento delle informazioni Popolamento delle banche dati Scorrimento dei dati in superficie: accesso via web Scorrimento sotterraneo dei dati : accesso a servizi
  • Modellazione dati e semantica Livello interno alla Regione (sezione Regione) GOVERNO CONTENUTI DIGITALI Basi DatiDecisionali Regole di estrazione, integrazione e validazione dei dati Condivisione Dati PA Basi Dati Operazionali Gestione anagrafiche di riferimento (Master Data Management) Qualità dei dati (massiva e on-line) Gestione della sicurezza e normative sui dati Gestione del ciclo di vita delle informazioni Gestione dati storici Riuso Dati Pubblici Interscambio Metadati Repository, Semantica e Ontologie Certificazione qualità dei dati Regole di fornitura e fruizione dei dati Regole di accesso ai dati Regole condivise di trattamento dati Livello esterno alla PA (sezione pubblica) Portale di Valorizzazione e Accesso ai Dati Pubblici Livello interno alla PA (sezione PA)
  • Top Ontologies contiene solo un insieme molto ristretto di classi di alto livello, generali (ad es. “Entità", “Evento, “Ruolo”, …) non collegate ad alcun dominio particolare. Top-domain Ontologies contiene le classi “core” di tipo generale di un certo dominio (nel nostro caso La Pubblica Amministrazione) che si devono poter interfacciare da un lato con le “top ontologies e dall’altro con le “domain ontologies” (ad es. Soggetto  Persona fisica) Domain Ontologies includono solo le classi specifiche di un certo dominio per descrivere un certo dominio in un modo comprensibile (ad es. Paziente, Operatore Sanitario in ambito sanitario). Modellazione dei concetti di alto livello Bene Soggetto Documento Unità organizzativa Territorio Ontologia PA Macroentità Entità Microentità Attributi Soggetto Persona fisica                             Persona giuridica                   Identificazione   Nascita   Residenza     Identificazione tributaria Identif. sanitaria Fruizione serv. Sanitari   Malattie e stati sanitari   …   Anagrafica soggetto     Localizzazione Sede   Nascita impresa   … Nome Cognome Comune nascita Data nascita Comune di residenza Indirizzo Data di inizio residenza Codice Fiscale Tessera sanitaria ASL di iscrizione Medico di base Diabete Tossicodipendenze …   Denominazione Codice fiscale Partita IVA Comune della sede Indirizzo Data di inizio localizz. Data di inizio attività …
  • Top Ontologies contiene solo un insieme molto ristretto di classi di alto livello, generali (ad es. “Entità", “Evento, “Ruolo”,…) non collegate ad alcun dominio particolare. Top-domain Ontologies contiene le classi “core” di tipo generale di un certo dominio (nel nostro caso La Pubblica Amministrazione) che si devono poter interfacciare da un lato con le “top ontologies e dall’altro con le “domain ontologies” (ad es. Soggetto  Persona fisica) Domain Ontologies includono solo le classi specifiche di un certo dominio per descrivere un certo dominio in un modo comprensibile (ad es. Paziente, Operatore Sanitario in ambito sanitario). Modellazione dei concetti di alto livello Bene Soggetto Documento Unità organizzativa Territorio Macro Dominio : Sanità Macroentità Entità Microentità Attributi Soggetto Persona fisica                         Identificazione   Nascita   Residenza     Identificazione tributaria Identif. sanitaria Fruizione serv. Sanitari   Malattie e stati sanitari   …   Nome Cognome Comune nascita Data nascita Comune di residenza Indirizzo Data di inizio residenza Codice Fiscale Tessera sanitaria ASL di iscrizione Medico di base Diabete Tossicodipendenze …
  • Mappa concettuale dominio Sanità Prestazioni DEA Prescrizioni farmaceutiche Ricoveri Assistibili Strutture Sanitarie Medici di base Scelta e revoca Bene Soggetto Documento Unità organizzativa Territorio Ontologia PA
  • Analisi del sistema di banche dati sanità Cartografia (disordinata) banche dati sanitarie
  • Cartografia (organizzata) banche dati sanitarie Personale sanitario Assistiti Strutture sanitarie Pianificazione Controllo Analisi Epidemiologiche Debito informativo verso lo stato Informazione verso i cittadini Attività Territoriali Attività di Prevenzione Attività Ospedaliera
  • Processi di alimentazione e aggregazione dalle Aziende alla Regione Calcolo Indicatori Dw Prest Dw SDO Dw Farma PA Cedap PA Dati contabili Tempi attesa Dati di produzione Registrazione Ricette Anag. personale Flussi regionali Prest SDO F BAR Cedap FEC TA Presc. Farma Ruoli PA SPI SceRev CNU Scelta Revoca Stipendi
  • Mondo Gestionale Mondo Decisionale CATALOGO DATI E SERVIZI > Banche dati Operazionali Flussi Regionali Organizzazione a piramide dei dati sanitari Piani di attività / Controllo di gestione Sistema Indicatori Cruscotto Direzionale Medico di Base - Budget di distretto Assistito Strutture Data mart Trasversali Farmaceutica Ricoveri Pronto Soccorso Stipendi Ambulatoriale SPIDI Prenotazioni Screening Formazione AssenzePresenze ADI Data mart Settoriali Strutture Sanitarie Personale sanitario - Ruoli Assistibili - BAR Data mart Anagrafici
  • Gestione di anagrafiche Livello interno alla Regione (sezione Regione) GOVERNO CONTENUTI DIGITALI Basi DatiDecisionali Regole di estrazione, integrazione e validazione dei dati Condivisione Dati PA Basi Dati Operazionali Gestione anagrafiche di riferimento (Master Data Management) Qualità dei dati (massiva e on-line) Gestione della sicurezza e normative sui dati Gestione del ciclo di vita delle informazioni Gestione dati storici Riuso Dati Pubblici Interscambio Metadati Repository, Semantica e Ontologie Certificazione qualità dei dati Regole di fornitura e fruizione dei dati Regole di accesso ai dati Regole condivise di trattamento dati Livello esterno alla PA (sezione pubblica) Portale di Valorizzazione e Accesso ai Dati Pubblici Livello interno alla PA (sezione PA)
  • Gestione Anagrafiche o Master Data Management
  • Anagrafiche Bene Soggetto Documento Unità organizzativa Territorio
  • Tavole Trasversali
  • Gestione della qualità dei dati Livello interno alla Regione (sezione Regione) GOVERNO CONTENUTI DIGITALI Basi DatiDecisionali Regole di estrazione, integrazione e validazione dei dati Condivisione Dati PA Basi Dati Operazionali Gestione anagrafiche di riferimento (Master Data Management) Qualità dei dati (massiva e on-line) Gestione della sicurezza e normative sui dati Gestione del ciclo di vita delle informazioni Gestione dati storici Riuso Dati Pubblici Interscambio Metadati Repository, Semantica e Ontologie Certificazione qualità dei dati Regole di fornitura e fruizione dei dati Regole di accesso ai dati Regole condivise di trattamento dati Livello esterno alla PA (sezione pubblica) Portale di Valorizzazione e Accesso ai Dati Pubblici Livello interno alla PA (sezione PA)
    • Documento di linee guida metodologiche , sia generali sia applicate al contesto CSI, che portano a delineare le azioni da intraprendere per migliorare la qualità dei dati (realizzato nell'ambito del progetto regionale " Valorizzazione Basi Dati SiRe” ) - 2005
    • Practical data quality certification : model, architecture, and experiences - Silvana Raffa, CSI Piemonte - Paolo Missier, School of Computer Science The University of Manchester, UK & Alessandro Oliaro, Department of Mathematics Università degli Studi di Torino.
    • Presentato al 3rd International ACM SIGMOD Workshop on Information Quality in Information Systems (IQIS 2006), Chicago
    Qualità dei Dati – aspetti metodologici e studi
  • L’idea di certificazione di qualita’ per i dati S.I. utente delle risorse di A Interfaccia dei servizi Implementazione dei servizi offerti Risorse dati Anagrafe Consistenza Tempestività Flusso dati Sistema A Contratto livelli di servizio (SLA) + Contratto qualità dei dati (QLA) + Certificato di qualità + Ci si attende che questo scenario fornisca motivazioni forti per nuovi investimenti in progetti di qualità dell’informazione
  • Certificato di qualità dei dati
    • Indica il grado di conformita’ del dato rispetto ai criteri definiti
    • Nota: non garantisce la “bonta’ del dato”
      • Puo’ anche indicare che un dato non e’ conforme
      • Informazione piu’ generale e piu’ utile
    Certificatodi Qualità dei dati
  • Qualità dei dati: assoluta o relativa? La qualità di un dato non è qualcosa di assoluto, ma dipende dall’utilizzo che si vuole fare del dato. Un consumatore per acquistare un prodotto sa l’uso che ne vuole farne e attraverso le “ etichette ” presenti sul prodotto può decidere se è adeguato a tale uso. Qualità dei dati
  • Processo di definizione dei criteri di qualita’– I dati delle aziende Individuazione del contesto d’uso dei dati Nel caso di scambio/acquisto dati, i criteri e i metodi corrispondenti a questo modello sono spesso difficili da esplicitare Individuazione delle caratteristiche prioritarie rispetto al contesto d’uso Individuazione degli indicatori di qualita’ Definizione di modelli decisionali basati sugli indicatori Modelli di scoring Valutazione di fattibilita’ e costi
    • Valutazione dell’importanza relativa degli indicatori
      • Es. Dati anagrafici corretti ma indirizzi obsoleti
    • Applicabilita’ delle procedure di stima degli indicatori, e loro costo di manutenzione
    • Calcolo di correttezza, univocita’, accuratezza basato su procedure di analisi dati CSI
    • Correttezza dati anagrafici
    • Univocita’ di identificazione
    • Stato di attivita’ azienda aggiornato
    • Accuratezza degli indirizzi
    • Identificazione aziende
    • Invio bollettini di pagamento
    • Mappatura geografica delle aziende
  • Modelli per l’analisi della qualità Un modello per l’analisi della qualità è un insieme di regole che permette, sulla base dei valori dei metadati associati ad un dato, di: Determinare se un dato è di qualità accettabile o no (Più in generale) quantificare il livello di – buona o cattiva – qualità del dato. In quest’ultimo caso il modello diventa in effetti un modello di classificazione , permettendo di effettuare una classificazione dei dati, suddividendoli (in una scala più o meno fine) in base alla loro maggiore o minore qualità.
  • Vista architetturale di alto livello per il calcolo e il delivery del CQ Servizi SI SI Dati Indicatori di qualita’ SI Certificazione di qualita’ Modelli di decisione Definizione dei criteri di qualita’ Certificato di qualita’ +
  • Avvio la ricerca dati attraverso il catalogo Information Directory Ricerca di una fornitura dati Avvio l’analisi della qualità della fornitura dati che mi interessa Verifico le forniture dati disponibili Scelgo la fornitura dati Voglio verificarne la qualità?
  • A cosa mi servono? L’analisi della qualità: identificazione del contesto d’uso Identifico il contesto d’uso dei dati Nessun contesto si adatta alle mie esigenze? Voglio scegliere io cosa esaminare? Elaboro il modello predefinito Scelgo il modello libero Il contesto d’uso è adeguato ma voglio adattarlo alle mie specifiche esigenze? Scelgo di personalizzare il modello
  • Impostazione del modello libero
  • Il livello di qualità dei dati è soddisfacente per l’utilizzo che ne devo fare? L’analisi della qualità: verifica dei risultati e decisione Ho necessità di maggiori dettagli per decidere? Voglio “acquistare” la fornitura? Verifico lo “score” di qualità dei dati ovvero la distribuzione dei dati per livelli di qualità Verifico ciascun criterio analizzato attraverso il certificato di qualità Acquisto l’intera fornitura Acquisto solo i dati che hanno qualità soddisfacente per le mie esigenze
  • Modello di presentazione
  • Livello più basso di aggregazione Al livello più basso, si descrive il dettaglio dei metadati di qualità e il modo in cui essi vengono calcolati.
  • Progetti di Migrazione e Qualità Dati
  • Alcuni progetti
    • Anagrafe Obbligo Formativo
    • Sistema Informativo Lavoro Piemonte
    • Gestione Mondo Soggetti
    • Bonifica Indirizzi (Postalizzazione)
    • Bonifica Dati Anagrafici (Vestizione Anagrafica)
  • Anagrafe Obbligo Formativo: gli obiettivi ed i problemi
    • È regolato dalla Legge 144/99 art. 68 il cui obiettivo è quello di rendere i giovani capaci di definire consapevolmente il proprio progetto di vita e di muoversi nel mondo del lavoro.
    • Ogni giovane, potrà scegliere, sulla base dei propri interessi e delle capacità, uno dei tre percorsi possibili:
      • proseguire gli studi nel sistema dell' istruzione scolastica
      • frequentare il sistema della formazione professionale
      • iniziare il percorso di apprendistato
    L'obbligo formativo è il dovere, ma soprattutto il diritto di frequentare attività formative fino all'età di 18 anni.
  • Gli strumenti: Anagrafe Obbligo Formativo
    • Operational Data Store, centralizza le anagrafiche degli allievi provenienti da diverse fonti:
    ANAGRAFE DELL’OBBLIGO FORMATIVO SCUOLA APPRENDISTATO FORMAZIONE PROFESSIONALE Centro Interscambio Anagrafico
    • L’alimentazione è giornaliera
    • Ogni fonte contiene una propria anagrafica degli allievi
    • Ogni allievo dovrebbe comparire una sola volta e viene identificato tramite Codice Fiscale
  • Anagrafe Obbligo Formativo: gli obiettivi ed i problemi Obiettivo principale : contenere la dispersione aiutando e orientando il soggetto insolvente agli obblighi di legge, a maturare una scelta formativa (scuola, formazione professionale, apprendistato). Metodo : estrazione periodica di allievi in età di obbligo formativo che risultano non frequentare corsi scolastici, di formazione professionale o di apprendistato. E’ poi compito dei Centri per l’Impiego individuare e contattare i soggetti a rischio ed effettuare tutte le azioni di orientamento previste dalla legge Problemi emersi : numerosi casi di “ falsi dispersi ”!
  • Bonifica Dati Obbligo Formativo: Analisi dei problemi
    • lo stesso allievo viene registrato più volte con CF diverso  se frequenta non lo riesco a rilevare!
    • non vengono registrati gli eventi “ deceduto ” o “ trasferito fuori regione ”  risulta disperso
    • Completezza: le banche dati dei canali formativi contengono tutti i dati di frequenza?
      • Se un allievo è iscritto a scuola, viene registrato nella Banca Dati Scuole?
    • Tempestività: i dati di frequenza sono inseriti in tempo utile per la rilevazione dei dispersi?
    • Correttezza: un allievo nell’Anagrafe Obbligo Formativo viene identificato correttamente?
    mancata identificazione dell’allievo!
  • Bonifica Dati Obbligo Formativo: Attività 1. Applicazione di metodologie di miglioramento basate sui dati
    • Individuazione delle anagrafiche ripetute
    • Applicazione di tecniche di “record matching” 
    • individuazione gruppi di record simili (cluster group)
    • Controlli formali sui campi
    • correttezza formale del codice fiscale, coerenza del codice fiscale con i dati anagrafici, coerenza del sesso con il nome, ecc..
                            COD_FISC                
  • Bonifica Dati Obbligo Formativo: Attività
    • Riprogettazione della base dati Anagrafe Centrale dell'Obbligo Formativo per includere metadati di controllo qualità dei dati
    2. Applicazione di metodologie di miglioramento basate sui processi BD Obbligo Formativo Metadati di Qualità Nuova Anagrafe ObbligoFormativo
  •  
    • Definizione dei criteri per l’individuazione di un soggetto valido all’interno di un cluster group
      • Applicazione di un sistema di pesi e misure che determinano un ranking dei record di un cluster group
    Bonifica Dati Obbligo Formativo: Attività                         ?                         1 2 3
  • Bonifica Dati Obbligo Formativo: Attività
    • Confronto con la realtà
    • Creazione di output contenenti anagrafiche ripetute da verificare in collaborazione con le scuole e agenzie formative per ottenere un controllo sui dati e la validazione dei criteri di individuazione record valido .
    • Creazione di output contenenti anomalie sui dati da inviare alle scuole per consentirne il controllo/correzione
  • Bonifica Dati Obbligo Formativo: Attività
    • Riprogettazione dei flussi di alimentazione provenienti dalle varie fonti introducendo tecniche di controllo dati ed applicando le stesse funzionalità di "data quality" utilizzate nella fasi di bonifica dati
    BD Scuole BD Formazione Professionale BD Apprendistato CIA Procedure di alimentazione + controllo qualità dei dati Nuova Anagrafe Obbligo Formativo ETLq DB Operazionali Operational Data Store
  • Alcuni progetti
    • Anagrafe Obbligo Formativo
    • Sistema Informativo Lavoro Piemonte
    • Gestione Mondo Soggetti
    • Bonifica Indirizzi (Postalizzazione)
    • Bonifica Dati Anagrafici (Vestizione Anagrafica)
  • SILP – Sistema Informativo Lavoro Piemonte
    • Migrazione e integrazione progressiva delle 20 banche dati dei centri per l’impiego piemontesi nel nuovo sistema centralizzato SILP - Sistema Informativo Lavoro del Piemonte:
    • 13 banche dati per la provincia di Torino, gestite attraverso il sistema Netlabor;
    • 7 banche dati per le altre province piemontesi gestite dal sistema Prolabor.
  • Porting SILP Vercelli Nei processi di porting, sono state integrate numerose funzionalità specifiche di data quality allo scopo di: Asti Cuneo SILP Torino DB Operazionale DB Operazionali ETLq Alessandria Verbania Novara
  • Benefici Porting SILP con ETLq
    • integrare dati mancanti attraverso l’utilizzo di banche dati di riferimento;
    • deduplicare informazioni doppie;
    • codificare campi dal contenuto esclusivamente descrittivo ;
    • normalizzare gli indirizzi ;
    • ripulire i dati da caratteri “sporchi”.
    • consentire la riconciliazione delle informazioni codificate in modalità differenti nei diversi sistemi e nelle diverse banche dati (a causa delle personalizzazioni permesse dai sistemi Prolabor e Netalbor);
  • Alcuni progetti
    • Anagrafe Obbligo Formativo
    • Sistema Informativo Lavoro Piemonte
    • Gestione Mondo Soggetti
    • Bonifica Indirizzi (Postalizzazione)
    • Bonifica Dati Anagrafici (Vestizione Anagrafica)
  • Anagrafe Tributaria Comunale (ATC) - situazione MainFrame Anagrafe Tributaria Comunale – dati anagrafici DEMOGRAFIA Indirizzo di Residenza ANAGRAFE INTEGRATIVA Anagrafica Contribuente Persona Fisica Anagrafica Contribuente Persona Giuridica Domicilio Fiscale Indirizzo di Residenza (soggetti non residenti in Torino) Centralizza le anagrafiche dei contribuenti, persone fisiche e giuridiche, per i diversi sistemi informativi tributari (ICI, TARSU, ICIAP,CIMP, COSAP) e per la divisione commercio (SIAP) Anagrafica Contribuente Residenti Persona Fisica
  • Anagrafe Tributaria Comunale: problematiche sui dati
    • I dati di Demografia sono garantiti, di elevata qualità e aggiornati in tempo reale sulla base della movimentazione interna alla città esclusivamente dalla Divisione Servizi Demografici
    • I dati di Anagrafe integrativa invece non sono dotati di elevata qualità, la provenienza dell’ informazione è poco qualificata e il ritardo dell’informazione è molto variabile
      • Duplicazione dei soggetti
      • Indirizzi non bonificati e codificati
      • Problematiche legate alle Anagrafiche Provvisorie
      • Codice fiscale non certificato
  • Anagrafe tributaria comunale - evoluzione
    • Migrazione del sistema da Mainframe ad Open
      • Riprogettazione del Sistema:
      • ATC  Gestione Centralizzata Mondo Soggetti (GMS)
    Database GMS FdR NAO Toponomastica RAS BPR AAEP Integrazione con FdR SF GMR Commercio Open Gestionali Tributi Integrazione con SF Erogazione Servizi Aggiornamenti Funzioni Online Servizi Applicativi SITAD Agenzia Entrate
  • ATC – Attività di bonifica e migrazione dati
    • Misurazione della qualità dei dati di ATC attraverso un assessment di qualità
    Applicazione di metodologie di miglioramento atte a bonificare massivamente la base dati
    • Validazione e arricchimento dei dati anagrafici attraverso l’individuazione in fonti dati di riferimento ( Anagrafe Comunale, Banca Dati della Popolazione Regionale, Anagrafe delle Attività Economiche e Produttive, Toponomastica comunale, Stradario regionale )
    • registrazione delle anagrafiche simili nella base dati per consentire una successiva risoluzione on-line dei duplicati
    • normalizzazione e codifica degli indirizzi
    Introduzione delle funzionalità di Data Quality nel processo di ETL del porting
  • ATC– Risultati riconoscimento soggetti “provvisori”
    • I soggetti definiti “ Provvisori ” sono i soggetti i cui record anagrafici contengono dati molto sporchi e/o incompleti tali per cui non possono essere inseriti nelle tavole “ufficiali” della Banca Dati ATC.
    • Tarmite un processo di validazione ed arricchimento, con l’applicazione di numerose funzioni di Data Quality, su circa 500.000 soggetti “ provvisori ”, ne sono stati recuperati circa 150.000 soggetti pari al 30%.
  • Anagrafe tributaria comunale – Attività Applicazione di metodologie di miglioramento sui processi di acquisizione dati Obiettivo: incorporare stabilmente il controllo della qualità dei dati negli applicativi stessi, per mantenere a lungo termine la qualità raggiunta tramite l’intervento massivo
    • Introduzione delle funzionalità di Data Quality
        • negli applicativi di “data entry”
        • nei processi massivi di acquisizione flussi esterni
  • Alcuni progetti
    • Anagrafe Obbligo Formativo
    • Sistema Informativo Lavoro Piemonte
    • Gestione Mondo Soggetti
    • Bonifica Indirizzi (Postalizzazione)
    • Bonifica Dati Anagrafici (Vestizione Anagrafica)
  • Normalizzazione indirizzi: alcuni esempi
    • Banca Dati Attività Economiche e Produttive
    • Obiettivo: normalizzare gli indirizzi delle sedi delle aziende; per le sedi in Piemonte individuare l’indirizzo nello stradario di riferimento regionale.
    • Attività:
      • Normalizzazione indirizzi aziende
      • “ Match” con Stradario Unico Regionale
    Alimentazione di AAEP prima dell’introduzione del servizio AAEP Batch PL/SQL (giornaliero) Infocamere Agricoltura Formazione Professionale INAIL Tributi
  • AAEP – il servizio di normalizzazione indirizzi AAEP Batch PL/SQL (giornaliero) Infocamere Tributi Servizio normalizzazione indirizzi (giornaliero) Batch PL/SQL (giornaliero) Risultati: sono stati normalizzati il 99% degli indirizzi e associati ai dati dello stradario regionale l’ 84% degli indirizzi sul totale dei record (2.900.000 ca). INAIL Formazione Professionale Agricoltura
  • Indirizzi AAEP: il match con lo Stradario Unico Regionale AAEP STRADARIO REGIONALE
  • Servizio di Postalizzazione - obiettivo
    • Realizzare un servizio batch che, dato un indirizzo di spedizione, lo bonifichi e lo strutturi secondo quanto prescritto dalle nuove norme di spedizione (“Decreto Ministero delle Comunicazioni del 12 maggio 2006 - Prescrizioni operative per stampa etichette”)
      • Ottenere indirizzi di spedizione corretti
      • Consentire l’utilizzo della posta massiva di Poste Italiane
  • Servizio di Postalizzazione DQ Rules Indirizzi DQ Engine CAP Professional Poste Italiane Stradario Unico Regionale Toponomastica Comune Torino Fonti dati di Riferimento Indirizzi Indirizzi Indirizzi bonificati e strutturati per la spedizione
  • Alcuni progetti
    • Anagrafe Obbligo Formativo
    • Sistema Informativo Lavoro Piemonte
    • Gestione Mondo Soggetti
    • Bonifica Indirizzi (Postalizzazione)
    • Bonifica Dati Anagrafici (Vestizione Anagrafica)
  • Servizio di Vestizione anagrafica- Obiettivo
    • Realizzare un servizio batch che consenta, dato un soggetto, Persona Fisica o Giuridica, la sua ricerca nelle fonti di riferimento e quindi la bonifica della sua anagrafica.
  • Servizio di Vestizione anagrafica Anagrafiche PF e PG Incomplete Non aggiornate Non corrette DQ Engine DQ Rules PF e PG Anagrafiche PF e PG arricchite e bonificate Servizio Postalizzazione Demografia Comune di Torino Demografia Comuni Piemontesi Infocamere Fonti dati di Riferimento PF e PG
  • Introduzione del “Firewall” di Qualità Fruitore ..n Modello concettuale dei dati Regole di qualità DQ Repository Enterprise DQ server Enterprise Service Broker Modello Metadati di qualità Forma Canonica Descrizione business dei dati Filtro sui dati in base al valore dei metadati DQ Alim 1 Alim 2 Alim 3 Alim ..n Fruitore 1 Fruitore 2 Fruitore 3 DQ Dati + Metadati DQ DQ Firewall DQ DQ DQ DQ Firewall 2 DQ Firewall 3 DQ Firewall ..n Dati DQ Firewall 1
  • Fine parte 2