2. COSA E’ OPEN DATA?
• Con dati aperti facciamo riferimento alle
informazioni raccolte e detenute da Pubbliche
Amministrazioni ed Enti Pubblici che vengono
messe a disposizione di tutti attraverso internet
3. HTTP://OPENDEFINITION.ORG
La conoscenza è aperta quando chiunque ha libertà di
accesso, uso,
modifica e condivisione ad essa – avendo al massimo
come limite misure
che ne preservino la provenienza e l’apertura.
#opendefinition
4. HTTP://OPENDEFINITION.ORG
La conoscenza è aperta quando chiunque ha libertà di
accesso, uso,
modifica e condivisione ad essa – avendo al massimo
come limite misure
che ne preservino la provenienza e l’apertura.
#opendefinition
Open
Government
Open Source Open Access
5. PERCHÉ FARE OPEN DATA?
• TRASPARENZA
• Volontà di rendere pubblica l’azione di governo
• CREAZIONE DI SERVIZI A CITTADINI E IMPRESE
• Creazione di nuovi servizi da parte di enti terzi
• CREAZIONE DI NUOVA ECONOMIA
• Nuovi mercati, nuovi prodotti e nuovi posto di lavoro
• LEVA PER L’INNOVAZIONE
7. LE CARATTERISTICHE DEGLI
OPEN DATA
Non strutturati Varietà di formati
Fonti dati
eterogenee
Procedure e
strumenti diverse
Varietà di
struttura
Volume
Dati grezzi
13. Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
14. Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
Risultato della
ricerca
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
15. Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
Filtro dei record
in base alla
selezioni
Risultato della
ricerca
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
16. Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
Output
json
Filtro dei record
in base alla
selezioni
Risultato della
ricerca
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
Quality
check
23. Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Query.json
download
ricerca
sull’indice
invertito
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
selezione dei
record
metadati (titolo, autore,
parole chiave, …)
+
attributi
24. Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Query.json
download
ricerca
sull’indice
invertito
processo
di
data
quality
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
selezione dei
record
metadati (titolo, autore,
parole chiave, …)
+
attributi
27. I TERMINI CHIAVE
Select TITOLO
from GIORNALE
Where
TITOLO like ‘%BergamoScienza%’
and Anno = 2015
Informatività = Quantità di informazione - la capacità di informare propria di
un testo
Rappresentatività = Capacità di essere rappresentativi - la probabilità che la
ricerca del termine restituisca documenti interessanti per il dominio
34. 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝐶𝐸 · 𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦 𝐶𝐸
DATA QUALITY
Accuratezza
Obsolescenza
Vicinanza di un dato rispetto
al valore corretto
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝐶𝐸 = 𝑟𝑒𝑙 𝑅𝑆 · 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑅𝑆
𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦 𝐶𝐸 = 𝑟𝑒𝑙 𝑅𝑆 · 𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦(𝑅𝑆)
Grado di aggiornamento
Rilevanza
Valori rappresentati
rispetto al dominio
35. PROVE SPERIMENTALI
AMBITO
SOCIALE
AMBITO
ECONOMICO
AMBITO
AMBIENTALE
Agriturismi, musei, alberghi,
sport, BG
Lombardia, Cened, Biomassa,
Polizia, Auto
Cened, Censimento, 2011,
Bergamo
44 documenti
19031 record
20 minuti
53 documenti
32759 record
15 minuti
64 documenti
8404 record
7 minuti
Google Cloud Platform
3 nodi Apache Hadoop (totale 9 core, 9 GB)
2 nodi MongoDb (6 core, 6 GB / primary + replica)
Catalogo: 7 sorgenti - 3306 documenti
4851 termini
36. Un linguaggio per interrogare dati non
strutturati
Un algoritmo per la creazione ed il
mantenimento di un catalogo locale di
Open Data da fonti eterogenee
Creazione di un Inverted Index
Un algoritmo per estrarre dati
strutturati da dati non strutturati
partendo da un catalogo locale
Processo di data quality Indice di consistenza
k-level per l’estrazione
dei termini chiave
Ontologie e tesauri per
migliorare l’indice
Integrazione di altre
fonti (es.: Istat) e
applicazioni in ambito
BigData
Aggregazioni e
ordinamenti
37. LAVISUALIZZAZIONE
Rapidità e
affidabilità
delle analisi ad
hoc
Ottimizzazione
del processo
decisionale
Più collaborazione
e condivisione
delle informazioni
Più funzionalità
self service per
gli utenti finali
Incremento
del ROI
Risparmio
di tempo
Meno
pressione
sull’It
20 %43 %
77 %
34 %
15 %
36 %
41 %
www.sas.com/italy
38. CITIZEN DATA SCIENTISTS
Citizen data scientists: people on the business side that
may have some data skills, possibly from a math or even
social science degree and putting them to work exploring
and analyzing data.
Gartner 2015 Hype Cycle