SlideShare a Scribd company logo
1 of 39
Download to read offline
ANSWERING QUERIES
ON OPENDATA
Pelucchi Mauro
Relatore: Prof. Giuseppe Psaila
Correlatore: Prof. Maurizio Pietro Toccù
COSA E’ OPEN DATA?
• Con dati aperti facciamo riferimento alle
informazioni raccolte e detenute da Pubbliche
Amministrazioni ed Enti Pubblici che vengono
messe a disposizione di tutti attraverso internet
HTTP://OPENDEFINITION.ORG
La conoscenza è aperta quando chiunque ha libertà di
accesso, uso,
modifica e condivisione ad essa – avendo al massimo
come limite misure
che ne preservino la provenienza e l’apertura.
#opendefinition
HTTP://OPENDEFINITION.ORG
La conoscenza è aperta quando chiunque ha libertà di
accesso, uso,
modifica e condivisione ad essa – avendo al massimo
come limite misure
che ne preservino la provenienza e l’apertura.
#opendefinition
Open
Government
Open Source Open Access
PERCHÉ FARE OPEN DATA?
• TRASPARENZA
• Volontà di rendere pubblica l’azione di governo
• CREAZIONE DI SERVIZI A CITTADINI E IMPRESE
• Creazione di nuovi servizi da parte di enti terzi
• CREAZIONE DI NUOVA ECONOMIA
• Nuovi mercati, nuovi prodotti e nuovi posto di lavoro
• LEVA PER L’INNOVAZIONE
Open Data in Italia
LE CARATTERISTICHE DEGLI
OPEN DATA
Non strutturati Varietà di formati
Fonti dati
eterogenee
Procedure e
strumenti diverse
Varietà di
struttura
Volume
Dati grezzi
CATENA DELVALORE
Rilascio
dataset
Raccolta e
raffinamento
Riuso
Open Data
Utilizzo
Open Data
dati grezzi dati raffinati
nuovi prodotti
e nuovi servizi
Enti Pubblici
Società
specializzate
Imprese Cittadini
CATENA DELVALORE
Rilascio
dataset
Raccolta e
raffinamento
Riuso
Open Data
Utilizzo
Open Data
dati grezzi dati raffinati
nuovi prodotti
e nuovi servizi
Enti Pubblici
Società
specializzate
Imprese Cittadini
SelectTITOLO
from GIORNALE
Where
TITOLO like ‘%BergamoScienza%’
and Anno = 2015
Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
Risultato della
ricerca
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
Filtro dei record
in base alla
selezioni
Risultato della
ricerca
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
Select TITOLO
from GIORNALE
Where
TITOLO like
‘%BergamoScienza%’
and Anno = 2015
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
Ricerca
dei dataset
Catalogo
locale
Output
json
Filtro dei record
in base alla
selezioni
Risultato della
ricerca
TITOLO
GIORNALE
BERGAMOSCIENZA
2015
metadati
attributi{
Quality
check
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Catalogo
Locale
e Inverted
Index
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
creazione del
catalogo
locale
Catalogo
Locale
e Inverted
Index
metadati (titolo, autore,
parole chiave, …)
+
attributi
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
metadati (titolo, autore,
parole chiave, …)
+
attributi
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Query.json
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
metadati (titolo, autore,
parole chiave, …)
+
attributi
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Query.json
ricerca
sull’indice
invertito
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
metadati (titolo, autore,
parole chiave, …)
+
attributi
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Query.json
download
ricerca
sull’indice
invertito
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
metadati (titolo, autore,
parole chiave, …)
+
attributi
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Query.json
download
ricerca
sull’indice
invertito
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
selezione dei
record
metadati (titolo, autore,
parole chiave, …)
+
attributi
Parser
Document Database
Crawler
Search Engine
Indexer
Portali
Open Data
Query.json
download
ricerca
sull’indice
invertito
processo
di
data
quality
creazione del
catalogo
locale
creazione
dell’indice
Catalogo
Locale
e Inverted
Index
selezione dei
record
metadati (titolo, autore,
parole chiave, …)
+
attributi
{ "select": [
{ "column": { "instance": "giornale", “label":"titolo"}} ],
"from": [
“giornale" ],
"where": [ {"condition": {
"instance1": “giornale", "label1": "titolo",
"operator": “like", "value": "BERGAMOSCIENZA",
"logicalOperator": "and"
}}, {"condition": {
"instance1": “giornale", "label1": “anno",
"operator": “eq", "value": "2015",
"logicalOperator": "and"
}}]
}
Interoperability
IL LINGUAGGIO
Semplice
Open
Compatto
Estendibile
{ "select": [
{ "column": { "instance": "giornale", “label":"titolo"}} ],
"from": [
“giornale" ],
"where": [ {"condition": {
"instance1": “giornale", "label1": "titolo",
"operator": “like", "value": "BERGAMOSCIENZA",
"logicalOperator": "and"
}}, {"condition": {
"instance1": “giornale", "label1": “anno",
"operator": “eq", "value": "2015",
"logicalOperator": "and"
}}]
}
InteroperabilityInteroperability
IL LINGUAGGIO
Semplice
Open
Compatto
Estendibile
I TERMINI CHIAVE
Select TITOLO
from GIORNALE
Where
TITOLO like ‘%BergamoScienza%’
and Anno = 2015
Informatività = Quantità di informazione - la capacità di informare propria di
un testo
Rappresentatività = Capacità di essere rappresentativi - la probabilità che la
ricerca del termine restituisca documenti interessanti per il dominio
IL CATALOGO LOCALE
dati.regionelombardia.it
dati.regionetoscana.it
dati.trentino.it
…
Read/import
data
source
Input split Mapping Shuffling/Reducing Final
IL CATALOGO LOCALE
dati.regionelombardia.it
dati.regionetoscana.it
dati.trentino.it
…
dati.regionelombard
ia.it
dati.regionetoscana.i
t
dati.trentino.it
Read/import
data
source
Input split Mapping Shuffling/Reducing Final
IL CATALOGO LOCALE
dati.regionelombardia.it
dati.regionetoscana.it
dati.trentino.it
…
dati.regionelombard
ia.it
dati.regionetoscana.i
t
dati.trentino.it
Read/import
data
source
Input split
Elenco comuni della
Lombardia
Aree Wifi a Milano
…
Dati inquinamento
Toscana
Anagrafe scuola
Toscana
…
Anagrafe scuole
Trento
MuseiTrento
…
Mapping Shuffling/Reducing Final
IL CATALOGO LOCALE
dati.regionelombardia.it
dati.regionetoscana.it
dati.trentino.it
…
dati.regionelombard
ia.it
dati.regionetoscana.i
t
dati.trentino.it
Read/import
data
source
Input split
Elenco comuni della
Lombardia
Aree Wifi a Milano
…
Dati inquinamento
Toscana
Anagrafe scuola
Toscana
…
Anagrafe scuole
Trento
MuseiTrento
…
Mapping Shuffling/Reducing
Elenco comuni della
Lombardia
Aree Wifi a Milano
…
Dati inquinamento
Toscana
Anagrafe scuola
Toscana
…
Anagrafe scuole
Trento
MuseiTrento
…
Final
IL CATALOGO LOCALE
dati.regionelombardia.it
dati.regionetoscana.it
dati.trentino.it
…
dati.regionelombard
ia.it
dati.regionetoscana.i
t
dati.trentino.it
Read/import
data
source
Input split
Elenco comuni della
Lombardia
Aree Wifi a Milano
…
Dati inquinamento
Toscana
Anagrafe scuola
Toscana
…
Anagrafe scuole
Trento
MuseiTrento
…
Mapping Shuffling/Reducing
Elenco comuni della
Lombardia
Aree Wifi a Milano
…
Dati inquinamento
Toscana
Anagrafe scuola
Toscana
…
Anagrafe scuole
Trento
MuseiTrento
…
Final
Catalogo
locale
DATA QUALITY
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝐶𝐸 · 𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦 𝐶𝐸
DATA QUALITY
Accuratezza
Obsolescenza
Vicinanza di un dato rispetto
al valore corretto
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝐶𝐸 = 𝑟𝑒𝑙 𝑅𝑆 · 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑅𝑆
𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦 𝐶𝐸 = 𝑟𝑒𝑙 𝑅𝑆 · 𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦(𝑅𝑆)
Grado di aggiornamento
Rilevanza
Valori rappresentati
rispetto al dominio
PROVE SPERIMENTALI
AMBITO
SOCIALE
AMBITO
ECONOMICO
AMBITO
AMBIENTALE
Agriturismi, musei, alberghi,
sport, BG
Lombardia, Cened, Biomassa,
Polizia, Auto
Cened, Censimento, 2011,
Bergamo
44 documenti
19031 record
20 minuti
53 documenti
32759 record
15 minuti
64 documenti
8404 record
7 minuti
Google Cloud Platform
3 nodi Apache Hadoop (totale 9 core, 9 GB)
2 nodi MongoDb (6 core, 6 GB / primary + replica)
Catalogo: 7 sorgenti - 3306 documenti
4851 termini
Un linguaggio per interrogare dati non
strutturati
Un algoritmo per la creazione ed il
mantenimento di un catalogo locale di
Open Data da fonti eterogenee
Creazione di un Inverted Index
Un algoritmo per estrarre dati
strutturati da dati non strutturati
partendo da un catalogo locale
Processo di data quality Indice di consistenza
k-level per l’estrazione
dei termini chiave
Ontologie e tesauri per
migliorare l’indice
Integrazione di altre
fonti (es.: Istat) e
applicazioni in ambito
BigData
Aggregazioni e
ordinamenti
LAVISUALIZZAZIONE
Rapidità e
affidabilità
delle analisi ad
hoc
Ottimizzazione
del processo
decisionale
Più collaborazione
e condivisione
delle informazioni
Più funzionalità
self service per
gli utenti finali
Incremento
del ROI
Risparmio
di tempo
Meno
pressione
sull’It
20 %43 %
77 %
34 %
15 %
36 %
41 %
www.sas.com/italy
CITIZEN DATA SCIENTISTS
Citizen data scientists: people on the business side that
may have some data skills, possibly from a math or even
social science degree and putting them to work exploring
and analyzing data.
Gartner 2015 Hype Cycle
Per maggior informazioni:
GitHub - https://github.com/HammerProject
http://www.hammer-project.com
Grazie

More Related Content

Similar to Hammer Project - Answering queries on Open Data

Open Data: l'esperienza del Piemonte
Open Data: l'esperienza del PiemonteOpen Data: l'esperienza del Piemonte
Open Data: l'esperienza del PiemonteComune di Bologna
 
StatPortal Open Geo Data - GisDay Teramo 2015
StatPortal Open Geo Data - GisDay Teramo 2015StatPortal Open Geo Data - GisDay Teramo 2015
StatPortal Open Geo Data - GisDay Teramo 2015Alessandro Greco
 
2019 11 13 Secondo raduno RTD - Open Data sul serio
2019 11 13 Secondo raduno RTD - Open Data  sul serio2019 11 13 Secondo raduno RTD - Open Data  sul serio
2019 11 13 Secondo raduno RTD - Open Data sul serioDaniele Crespi
 
Analisi della qualità dei dati di ContrattiPubblici.org
Analisi della qualità dei dati di ContrattiPubblici.orgAnalisi della qualità dei dati di ContrattiPubblici.org
Analisi della qualità dei dati di ContrattiPubblici.orgSynapta
 
2019 07 24 Daniele Crespi - corso DDJ PoliS
2019 07 24 Daniele Crespi -  corso DDJ PoliS2019 07 24 Daniele Crespi -  corso DDJ PoliS
2019 07 24 Daniele Crespi - corso DDJ PoliSDaniele Crespi
 
Pubblica amministrazione cultura del dato e linked data
Pubblica amministrazione  cultura del dato e linked dataPubblica amministrazione  cultura del dato e linked data
Pubblica amministrazione cultura del dato e linked datadatitrentinoit
 
Smart data. Strumenti per scoprire il patrimonio digitale - Anna Cavallo
Smart data. Strumenti per scoprire il patrimonio digitale - Anna CavalloSmart data. Strumenti per scoprire il patrimonio digitale - Anna Cavallo
Smart data. Strumenti per scoprire il patrimonio digitale - Anna CavalloCSI Piemonte
 
M. Scannapieco et al. - I Dati del Censimento nella LOD Cloud: Sperimentazio...
M. Scannapieco et al. - I Dati del Censimento  nella LOD Cloud: Sperimentazio...M. Scannapieco et al. - I Dati del Censimento  nella LOD Cloud: Sperimentazio...
M. Scannapieco et al. - I Dati del Censimento nella LOD Cloud: Sperimentazio...Istituto nazionale di statistica
 
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...Istituto nazionale di statistica
 
Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2Matteo Troìa
 
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 22014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2Daniele Crespi
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso Istituto nazionale di statistica
 
I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...
I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...
I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...Marco Panebianco
 
15.09.08 ODTCorsoTN+BZ+Regione
15.09.08 ODTCorsoTN+BZ+Regione15.09.08 ODTCorsoTN+BZ+Regione
15.09.08 ODTCorsoTN+BZ+RegioneFrancesca Gleria
 
Scambio di dati con il portale dati.gov.it
Scambio di dati con il portale dati.gov.itScambio di dati con il portale dati.gov.it
Scambio di dati con il portale dati.gov.itGianfranco Andriola
 
S. De Francisci, La progressiva affermazione dell’integrazione semantica dei...
S. De Francisci,  La progressiva affermazione dell’integrazione semantica dei...S. De Francisci,  La progressiva affermazione dell’integrazione semantica dei...
S. De Francisci, La progressiva affermazione dell’integrazione semantica dei...Istituto nazionale di statistica
 
14.01.29 Gli Open Data come strumento di crescita
14.01.29 Gli Open Data come strumento di crescita 14.01.29 Gli Open Data come strumento di crescita
14.01.29 Gli Open Data come strumento di crescita Francesca Gleria
 

Similar to Hammer Project - Answering queries on Open Data (20)

Open Data: l'esperienza del Piemonte
Open Data: l'esperienza del PiemonteOpen Data: l'esperienza del Piemonte
Open Data: l'esperienza del Piemonte
 
StatPortal Open Geo Data - GisDay Teramo 2015
StatPortal Open Geo Data - GisDay Teramo 2015StatPortal Open Geo Data - GisDay Teramo 2015
StatPortal Open Geo Data - GisDay Teramo 2015
 
2019 11 13 Secondo raduno RTD - Open Data sul serio
2019 11 13 Secondo raduno RTD - Open Data  sul serio2019 11 13 Secondo raduno RTD - Open Data  sul serio
2019 11 13 Secondo raduno RTD - Open Data sul serio
 
Presentazione sce
Presentazione scePresentazione sce
Presentazione sce
 
I luoghi degli "open data"
I luoghi degli "open data"I luoghi degli "open data"
I luoghi degli "open data"
 
Analisi della qualità dei dati di ContrattiPubblici.org
Analisi della qualità dei dati di ContrattiPubblici.orgAnalisi della qualità dei dati di ContrattiPubblici.org
Analisi della qualità dei dati di ContrattiPubblici.org
 
2019 07 24 Daniele Crespi - corso DDJ PoliS
2019 07 24 Daniele Crespi -  corso DDJ PoliS2019 07 24 Daniele Crespi -  corso DDJ PoliS
2019 07 24 Daniele Crespi - corso DDJ PoliS
 
Pubblica amministrazione cultura del dato e linked data
Pubblica amministrazione  cultura del dato e linked dataPubblica amministrazione  cultura del dato e linked data
Pubblica amministrazione cultura del dato e linked data
 
Smart data. Strumenti per scoprire il patrimonio digitale - Anna Cavallo
Smart data. Strumenti per scoprire il patrimonio digitale - Anna CavalloSmart data. Strumenti per scoprire il patrimonio digitale - Anna Cavallo
Smart data. Strumenti per scoprire il patrimonio digitale - Anna Cavallo
 
M. Scannapieco et al. - I Dati del Censimento nella LOD Cloud: Sperimentazio...
M. Scannapieco et al. - I Dati del Censimento  nella LOD Cloud: Sperimentazio...M. Scannapieco et al. - I Dati del Censimento  nella LOD Cloud: Sperimentazio...
M. Scannapieco et al. - I Dati del Censimento nella LOD Cloud: Sperimentazio...
 
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
 
Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2
 
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 22014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2
 
Enel Opencompany
Enel OpencompanyEnel Opencompany
Enel Opencompany
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
 
I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...
I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...
I dati pubblici in Lombardia e in Europa: una fonte rinnovabile di energia in...
 
15.09.08 ODTCorsoTN+BZ+Regione
15.09.08 ODTCorsoTN+BZ+Regione15.09.08 ODTCorsoTN+BZ+Regione
15.09.08 ODTCorsoTN+BZ+Regione
 
Scambio di dati con il portale dati.gov.it
Scambio di dati con il portale dati.gov.itScambio di dati con il portale dati.gov.it
Scambio di dati con il portale dati.gov.it
 
S. De Francisci, La progressiva affermazione dell’integrazione semantica dei...
S. De Francisci,  La progressiva affermazione dell’integrazione semantica dei...S. De Francisci,  La progressiva affermazione dell’integrazione semantica dei...
S. De Francisci, La progressiva affermazione dell’integrazione semantica dei...
 
14.01.29 Gli Open Data come strumento di crescita
14.01.29 Gli Open Data come strumento di crescita 14.01.29 Gli Open Data come strumento di crescita
14.01.29 Gli Open Data come strumento di crescita
 

Hammer Project - Answering queries on Open Data