Media digitali e Data Journalism- Laboratorio Data
Journalism (9 cfu)
Marzia Antenore
Coris – La Sapienza
Il	data	journalist fa	cose	con	i	
dati…..
Ma	quali	dati?
14/12/15 Titolo	Presentazione Pagina	6
https://rilievoaiaceblogliveri.wordpress.com
/2015/08/31/stipendi-del-pubblico-impiego-
la-bufala-dello-stipendio-medio/
The Formation of Love
(by Carlos Diuk, Facebook Data Science)
Relationships start with a period of courtship…
14/12/15Titolo Presentazione Pagina 8
The Formation of Love
(by Carlos Diuk, Facebook Data Science)
The proportion of positiveover negative feelings being expressedin timeline
posts before and after the beginning of a relationship
14/12/15Titolo Presentazione Pagina 9
Nominare nelle catene (di libri)
14/12/15Titolo Presentazione Pagina 10
Books that have stayed with us
14/12/15Titolo Presentazione Pagina 11
Connections between the books, e.g. 'people who
listed X also listed Y'
14/12/15Titolo Presentazione Pagina 12
The Links of Love Facebook Data Science
14/12/15Titolo Presentazione Pagina 13
Small-world experiment (Stanley Milgram, 1967)
14/12/15Titolo Presentazione Pagina 14
• 296 lettere consegnate a abitanti
del Kansas e dintorni da far
pervenire ad abitanti di Boston e
dintorni
• Le lettere contenevano nome e
cognome del destinatario e alcune
info di base (ad esempio,
professione, età, ecc.), ma non
l’indirizzodel destinatario
• Se la persona conosceva
direttamente il destinatario avrebbe
dovuto consegnargliela.
• Se non lo conosceva, avrebbe
dovuto consegnarla a una persona
che aveva probabilità di
conoscerlo.
Peter Sheridan Dodds- Science (2003)
• Dodds usò un messaggio e-mail come "pacchetto"
che doveva essere consegnato
• Scelse 18 destinati sparsi nel mondo (un
consulente tecnologico in India, un poliziotto in
Australia e un veterinario in Norvegia)
• Raccolse 61.000 invii di persone di oltre 160 Stati
• Trovò che i gradi di separazione erano tra 5 e 7
14/12/15Titolo Presentazione Pagina 15
MSN Messenger (2006)
• Due ricercatori di Microsoft, sfruttando i log delle
conversazioni attraverso MSN Messenger, hanno
dimostrato che fra due utenti del programma vi
sono in media 6,6 gradi di separazione.
14/12/15Titolo Presentazione Pagina 16
ABC (2006)
• Una nota giornalista newyorkese deve entrare in
contatto con un disoccupato (ex pugile). Ci riesce in
6 passaggi.
• L’ex pugile deve entrare in contatto con una
ballerina. Ci riesce in 5 passaggi.
• NB: I sei gradi di separazione non dipendono dallo
status
14/12/15Titolo Presentazione Pagina 17
14/12/15Titolo Presentazione Pagina 18
14/12/15Titolo Presentazione Pagina 19
14/12/15Titolo Presentazione Pagina 20
14/12/15Titolo Presentazione Pagina 21
CROWDFUNDING
Progetti di informazione finanziati da donazioni volontarie
14/12/15Titolo Presentazione Pagina 22
BILANCI GRUPPI EDITORIALI
14/12/15Titolo Presentazione Pagina 23
14/12/15Titolo Presentazione Pagina 24
14/12/15Titolo Presentazione Pagina 25
14/12/15Titolo Presentazione Pagina 26
14/12/15Titolo Presentazione Pagina 27
CROWDSOURCING
Progetti di informazione sviluppati dai giornalisti in collaborazione
con i cittadini
14/12/15Titolo Presentazione Pagina 28
http://www.publicinsightnetwork.org
14/12/15Titolo Presentazione Pagina 29
DATAJOURNALISM
I precursori
14/12/15Titolo Presentazione Pagina 30
Fondazione “<Ahref”
• «Il data journalism, (giornalismo basato sui dati) è
un approccio a cavallo tra ricerca e inchiesta
giornalistica che fa un uso intensivo di database,
mappe digitali e software per analizzare, raccontare
e visualizzare un fenomeno o una notizia, spesso
producendo dei mashup di elementi diversi. La
digitalizzazione dei dati e lo sviluppo di Internet
sono considerate un'opportunità senza precedenti
per l'innovazione del giornalismo che negli ultimi
anni ha già prodotto diversi premi Pulitzer e sta
facendo emergere nuove figure di giornalisti-
programmatori».
14/12/15Titolo Presentazione Pagina 31
Tony Hirst: i 3 modi di vedere il DJ
• Un particolare tipo di visualizzazione (grafici,
infografiche, mappe interattive, ecc.).
• Un particolare tipo di processo (che coinvolge i dati
ma non necessariamente in via esclusiva)
• Un insieme di competenze (statistica, visual design,
sociologia, informatica)
14/12/15Titolo Presentazione Pagina 32
IL DJ negli annunci di lavoro del Trinity
Mirror (I gruppo editoriale UK)
14/12/15Titolo Presentazione Pagina 33
Annuncio di lavoro del Financial Times
14/12/15Titolo Presentazione Pagina 34
Philip Meyer (1970)
• Nuovo Giornalismo
• Il caso della giornalista giornalista del
Washington Post Janet Cooke (1980)
• Il primato del metodo scientifico
• Evidence-based narrative:
• un processo che implica una buona
narrazione basata su prove verificabili
• I dati grezzi richiedono una struttura che
li renda coerenti, anche se attraverso
mezzi differenti
14/12/15Titolo Presentazione Pagina 35
Florence Nightingale
Grafico delle cause di mortalità nell'esercito in
Oriente
14/12/15Titolo Presentazione Pagina 36
COMPUTER-ASSISTED REPORTING (CAR)
• Venne utilizzato per la prima volta nel 1952 dalla
CBS (Columbia Broadcasting System) per
prevedere il risultato delle elezioni presidenziali
nazionali
•
14/12/15Titolo Presentazione Pagina 37
Philip Meyer “The people beyond 12th Street: a
survey of attitudes of Detroit negroes after the riot
of 1967” (premio Pulitzer in Giornalismo locale)
• Una delle rivolte civili più sanguinose della storia
degli Stati Uniti:
• 5 giorni
• 43 morti
• 1.189 feriti
• oltre di 2.000 edifici distrutti
• 500 milioni di dollari di danni
14/12/15Titolo Presentazione Pagina 38
Le premesse
• Pieno sviluppo delle tecniche statistiche
• Software con interfacce “user friendly” e a costi
ridotti (data-text: 10$)
• Molte teorie sulle componenti della rivolta
risiedevano nella “saggezza popolare”
– I rivoltosi avevano uno status socioeconomico basso
rispetto alla media della popolazione
– I rivoltosi provenivano dal Sud rurale e si erano male
integrati nel Nord industrializzato
14/12/15Titolo Presentazione Pagina 39
L’indagine di Meyer
«Questa teoria può essere
verificata da una ricerca analitica.
Se si riesce a identificare i rivoltosi
e a confrontarli con i non rivoltosi si
troverà,
se la teoria è vera, che gli individui
con meno istruzione
hanno maggiore probabilità di
partecipare alla rivolta».
14/12/15Titolo Presentazione Pagina 40
L’articolo di Meyer sul Detroit Free Press
14/12/15Titolo Presentazione Pagina 41
Bill Dedman “The color of money”
• 5 mesi
• 109.000 mutui concessi (1981 e il 1986)
• 64 quartieri (39 bianchi, 14 neri e 11 integrati)
• a reddito medio (tra i $12.849 e i $22.393)
• 82.610 mutui per acquisto abitazione
• 26.721 prestiti per ristrutturazione
• Dati del Federal Financial Institutions Examination
Council (Freedom of Information Act)
• Dati demografici del censimento del 1980
14/12/15Titolo Presentazione Pagina 42
14/12/15Titolo Presentazione Pagina 43
I risultati
Stephen K. Doig “What Went Wrong” (Miami
Herald, 1992)
• Indagine sull’uragano“Andrew”che colpì la Florida meridionale e
Miami in particolare.
• Moriono 65 persone
• 26,5 miliaridi di $ di danni
• Quadro dei crolli molto disomogeneoma con uno specifico pattern:i
dannivariavano non a seconda della direzione delvento ma in base
ai quartieri
• Più della forza dell’uragano,a distruggere i tetti della città era stata la
corruzione nell’edilizia,che il team di giornalisti aveva sottoposto a
rigorose analisimediante verifiche agli edifici danneggiati,
registrazionimeteorologiche e certificatidi agibilità̀ edilizia.
14/12/15Titolo Presentazione Pagina 44
Il DJ come processo: modelli e tipi di fonte di dati
14/12/15Titolo Presentazione Pagina 45
La nascita del data-driven journalism (anni ‘80)
• Sviluppo di tecnologie di elaborazione
computer-based
• Diffusione di Internet
• Diffusione e ampliamento delle banche
dati online
• Le redazioni si aprono a nuove figure
professionali
14/12/15Titolo Presentazione Pagina 46
14/12/15Titolo Presentazione Pagina 47
14/12/15Titolo Presentazione Pagina 48
14/12/15Titolo Presentazione Pagina 49
Mirko Lorenz,2010
14/12/15Titolo Presentazione Pagina 50
Raccogliere dati
• Interrogativo cui si cerca di rispondere tramite i dati
(“Small world experiment”)
• Set di dati disponibili che si interrogano alla ricerca
di una storia (“db incidenti stradali”, “stipendi”)
• Fonti ufficiali (Istat, ministeri, enti locali, ecc.)
• Sondaggi
• Scraping
• API (Application Programming Interface)
14/12/15Titolo Presentazione Pagina 51
Pulire i dati
• Errori di duplicazione (matrice con celle ridondanti)
• Errori materiali di battitura (“errori di stompa”)
• Errori di formattazione (“7/10/2015; 07/10/2015;
10/07/2015)
• Missing values
• Excel (filtri e “trova e sostituisci”) oppure Google
docs
• Open Refine
14/12/15Titolo Presentazione Pagina 52
Contestualizzare i dati
• Chi li ha raccolti, con quale obiettivo, usando quale
metodo, tutti o un campione, probabilistico o no?
• Come possiamo utilizzarli senza essere parziali o
faziosi?
• La stampa sulle condizioni della sanità in Italia
• Il caso #doveticuri http://doveticuri.mitecube.com
14/12/15Titolo Presentazione Pagina 53
Rappresentazioni della sanità italiana
14/12/15Titolo Presentazione Pagina 54
14/12/15Titolo Presentazione Pagina 55
Combinare i dati
• Ottenere informazioni da più data set (mash up)
• Dati sugli incidenti stradali (Comune di Roma) con
dati sulla manutenzione del manto stradale
(Servizio di manutenzione del patrimonio Comune
di Roma)
14/12/15Titolo Presentazione Pagina 56
Comunicare i dati ai lettori: Visualizzazione
• Mix di abilità individuali(gusto
estetico,abilità narrative) e
apprendimento (uso di
programmidi grafica)
• L’infografica rende più chiara
una storia?
• Rischio di produrre chartjunk
• Autosufficiente?
• 1) making sure the image
contains a link back to its
source;and 2) making sure
that there is something more at
the source when people arrive.
14/12/15Titolo Presentazione Pagina 57
Social Communication (Crowdsourcing)
• Invitare i lettori a contribuire alla notizia attraverso
dati, racconti personali, esperienze, revisioni di fonti
messe online.
14/12/15Titolo Presentazione Pagina 58
Narrazione
• Less is more
• Astrazioni sulle cifre (1 milione di macchine vendute
è una dato importante ma il dato, da solo, significa
poco..).
– Dove
– In quali anni
– Quali auto
– Cosa accade altrove?
– Cosa accade in altri mercati?
– ……..
14/12/15Titolo Presentazione Pagina 59
14/12/15Titolo Presentazione Pagina 60
14/12/15Titolo Presentazione Pagina 61
14/12/15Titolo Presentazione Pagina 62
Le spese di Marino sul sito del Comune di Roma
14/12/15Titolo Presentazione Pagina 63
Umanizzare
• Quando si lavora su numeri di scala difficilmente
comprensibili, allora è altrettanto complicato riuscire
a coinvolgere le persone, a prescindere dall’impatto
della grafica. Pertanto è necessario tenere a mente
che una semplice intervista a una persona che è
stata influenzata da quel tipo di dati può̀ fare la
differenza relativamente all’impatto dell’articolo
• Per avvicinare i lettori ai numeri, si possono usare
anche narrazioni in filmati: Truenumbers
14/12/15Titolo Presentazione Pagina 64
Personalizzazione
• Molto comune è la personalizzazione geografica: gli
utenti sono invitati inserire il proprio CAP o altre
informazioni per calcolare l’impatto di alcuni
provvedimenti
(http://www.bbc.co.uk/news/business-12773565)
• “Oscurantismo” degli algoritmi (da Google a
Facebook, a Twitter, a Uber, a Amazon)
• Siamo in una bolla comunicativa?
14/12/15Titolo Presentazione Pagina 65
Utilizzo
• Standard di archiviazione dei dati
• Licenze di utilizzo
14/12/15Titolo Presentazione Pagina 66
14/12/15Titolo Presentazione Pagina 67
14/12/15Titolo Presentazione Pagina 68
link
• https://sites.google.com/site/fusiontablestalks/storie
s (gallery)
• https://www.google.com/fusiontables/DataSource?d
srcid=308519#map:id=3 (icons)
• https://support.google.com/fusiontables/answer/124
4603?hl=en&vid=1-635809588766296612-
1701645149#custompopup (info windows)
• https://wiki.digitalmethods.net/Dmi/ToolInstagramSc
raper
• Coordinates of New York in decimal degrees
• http://dateandtime.info/citycoordinates.php?id=5128
581
14/12/15Titolo Presentazione Pagina 69
http://newspapermap.com
14/12/15Titolo Presentazione Pagina 70
US Poverty Mapped
14/12/15Titolo Presentazione Pagina 71
Dati.comune.roma.it
14/12/15Titolo Presentazione Pagina 72
Preparare i dati
• Lasciare solo i dati necessari alla visualizzazione
della mappa (Quali ci interessano?)
• Controllare la corretta dicitura della colonna
“Paese” per la georeferenziazione
• Cambiare il formato delle celle (senza decimali)
14/12/15Titolo Presentazione Pagina 73
Create a Fusion Table
14/12/15Titolo Presentazione Pagina 74
L’accesso ai dati: le fonti
• Soggetti che, per mission o meno, pubblicano online i propri
data warehouse permettendone la consultazione (Istat,
Eurostat, The World Bank, l’Organizzazione Mondiale della
Sanità, governi, Camere, Dipartimenti, No profit, PA….ecc.)
• Soggetti che non hanno pubblicato i dati online ma possono
ricevere, in base alla legge sulla trasparenza e l’accesso ai
dati del PA (L. 241/90 e 33/2013), richieste scritte di accesso.
• Dati destrutturati presenti in Rete e accessibili tramite tools
(post, foto, tags, file pdf. ecc.).
14/12/15Titolo Presentazione Pagina 75
RACCOLTA E PULIZIA
14/12/15Titolo Presentazione Pagina 76
Data Wrangling
Data munging or data wrangling is the
process of manually converting or mapping
data from one "raw" form into
another format that allows for more
convenient consumption of the data with the
help of semi-automated tools.
14/12/15Titolo Presentazione Pagina 77
14/12/15Titolo Presentazione Pagina 78
14/12/15Titolo Presentazione Pagina 79
Data scraping
Web scraping is a term for various methods used to collect
information from across the Internet. Generally, this is done with
software that simulates human Web surfingto collect specifiedbits of
information from different websites.
Those who use web scraping programs may be looking to collect
certain data to sell to other users, or to to use for promotional
purposes on a website.
Web scraping is also called Web data extraction, screen scraping or
Web harvesting.
14/12/15Titolo Presentazione Pagina 80
14/12/15Titolo Presentazione Pagina 81
14/12/15Titolo Presentazione Pagina 82
Questionari online
https://www.google.it/intl/it/forms/about/
14/12/15Titolo Presentazione Pagina 83
LA VISUALIZZAZIONE
14/12/15Titolo Presentazione Pagina 84
14/12/15Titolo Presentazione Pagina 85
14/12/15Titolo Presentazione Pagina 86
14/12/15Titolo Presentazione Pagina 87
14/12/15Titolo Presentazione Pagina 88
14/12/15Titolo Presentazione Pagina 89
14/12/15Titolo Presentazione Pagina 90
14/12/15Titolo Presentazione Pagina 91
STORYTELLING
14/12/15Titolo Presentazione Pagina 92
14/12/15Titolo Presentazione Pagina 93
MAP BUILDING
14/12/15Titolo Presentazione Pagina 94
14/12/15Titolo Presentazione Pagina 95
14/12/15Titolo Presentazione Pagina 96
Google Map Maker
14/12/15Titolo Presentazione Pagina 97
OPEN DATA
Il DJ nasce dal connubio del “giornalismo di precisione” con gli…
14/12/15Titolo Presentazione Pagina 98
Open Data
“Dati che possono essere liberamente utilizzati,
riutilizzati e ridistribuiti da chiunque, soggetti
eventualmente alla necessità di citarne la fonte e di
condividerli con lo stesso tipo di licenza con cui sono
stati originariamente rilasciati”
Open Knowledge Foundation
14/12/15Titolo Presentazione Pagina 99
Freedom of Information Act (FOIA)
• La più importante legge US in materia di accesso
pubblico all’informazione statale emanata il 4 Luglio
1966 dal Presidente Lyndon Johnson.
• Tutte le Agenzie di Stato hanno il dovere di
divulgare i documenti che vengono loro richiesti
tramite un’istanza scritta effettuata da un cittadino
degli Stati Uniti o appartenente ad una nazione
straniera, da organizzazioni, società, corporazioni,
da un governo locale, un’associazioneo
un’università.
14/12/15Titolo Presentazione Pagina 100
I precedenti
• 1766 la Svezia con l’Atto sulla Libertà di Stampa
• 1951 la Finlandia approva un atto simile al FOIA
• 1989 la società̀ civile dell’Europa centrale e
orientale ha reclamato questo diritto come parte del
cambiamento durante le transizioni post-comuniste
14/12/15Titolo Presentazione Pagina 101
Numero di leggi sull’accesso (1766-2011)
14/12/15Titolo Presentazione Pagina 102
Repository di dati: US, UK, EU
• http://www.data.gov
• https://data.gov.uk
• https://open-data.europa.eu/it/data
14/12/15Titolo Presentazione Pagina 103
In Italia
• Carenza di repository di dati
• Legge n. 241 del 7 agosto 1990 e successivi
aggiornamenti (ancora molto restrittive in termini di
diritto di accesso agli atti e trasparenza)
• A partire dal 2009 una serie di leggi sull’accesso ai
dati (Legge 15/2009; Legge 150/2009; Legge
183/2010; Decreto Crescita 2.0 - Agenda digitale;
Decreto Legge n. 83/2012; Decreto Trasparenza
33/2013)
14/12/15Titolo Presentazione Pagina 104
Alcuni data set disponibili in Italia
Dataset Europa
• https://open-data.europa.eu/it/data
• http://www.publicdata.eu/
Dataset nazionali
• http://www.dati.gov.it/
• http://dati.senato.it/home
• http://dati.camera.it/it/
• http://www.datiopen.it/
• http://dati.istat.it/
Dataset regionali
•
https://www.dati.lombardia.it/
• http://www.regione.liguria.it/opendata.ht
ml
• http://dati.toscana.it/
• http://dati.umbria.it/
• http://dati.veneto.it/
• http://opendata.regione.sardegna.it/
• https://www.dati.friuliveneziagiulia.it/
• https://dati.lazio.it/
• http://www.dati.piemonte.it/
• http://dati.emilia-romagna.it/
• http://dati.comune.roma.it/
• http://www.opendata.provincia.roma.it/
Dataset comunali
• http://www.openbilanci.it/
• ………….
14/12/15Titolo Presentazione Pagina 105
Il diritto di accesso all’informazione delle PA
Il diritto di accesso si compone di due elementi
(proattivo e reattivo), tali da generare obblighi
differenti, ma complementari, per le istituzioni
pubbliche:
• Divulgazione proattiva:l'obbligo perla PA di fornire, pubblicaree
diffondere informazioniriguardo alla propria attività̀ , alle spese
effettuate e alle politiche messe in campo in modo da permettere una
consultazione libera e facile da parte dei cittadini.
• Divulgazione reattiva:il diritto da parte dei cittadini di richiedere alle
istituzioniqualunque tipo di informazione prodotta e posseduta dalle
PA e di ricevere risposta.
14/12/15Titolo Presentazione Pagina 106
Legge n. 241 del 7 agosto 1990: alcuni principi
• con “diritto di accesso”si intende il diritto degli interessatidi prendere
visione ed estrarre copia dei documentiamministrativi;
• con “interessati” si intende tutti i soggettiprivati (compresiquelli
portatori di interessipubblicio diffusi) che abbiano un interesse
diretto, concreto e attuale,corrispondente ad una situazione
giuridicamente tutelata e collegata al documento al quale è chiesto
l'accesso;
• le richieste di accesso mirate a un controllo generalizzato della
Pubblica Amministrazione non sono considerate ammissibili;
• le istituzionidevono rispondere alle richieste entro 30 giorni, ma
possono sottrarre l'accesso a informazionirelative a sicurezza,difesa
nazionale,relazioniinternazionali,ordine pubblico e politica
monetaria e valutaria.
14/12/15Titolo Presentazione Pagina 107
Standard Italiano vs. standard internazionale
Italiano: le richieste sono
presentate secondo i requisiti
previsti dall'attuale legge
italiana sul diritto di accesso
(L. 241/1990), che stabilisce
che i richiedenti debbano
fornire una copia del proprio
documento d'identità e
motivare il loro legittimo
interesse all'accesso alle
informazioni richieste.
• Internazionale: le richieste
possono essere fatte senza
la necessità di dichiarare la
motivazione alla base della
richiesta, né fornendo
dettagli sull'affiliazione del
richiedente o personali, a
parte le informazioni
strettamente necessarie per
poter rispondere a chi ha
presentato la richiesta.
14/12/15Titolo Presentazione Pagina 108
Decreto legislativo 33/2013 (“Decreto trasparenza”)
Trasparenza: “accessibilità totale delle informazioni
concernenti l’organizzazione e le attività delle PA, allo
scopo di favorire forme diffuse di controllo sul
perseguimento delle funzioni istituzionalie l’utilizzo
delle risorse pubbliche”.
Accesso civico: “l’obbligo di pubblicare documenti e
informazioni comporta il diritto di chiunque di
richiederli, se la pubblicazione ne sia stata omessa”
Criticità: questa misura si applica solo alle
informazioni che avrebbero già dovute essere
pubblicate sui siti della PA
14/12/15Titolo Presentazione Pagina 109
A quale legge fare riferimento per chiedere un
accesso ai dati?
• Se si vuole richiedere un documento che tocca un proprio
interesse specifico (un concorso al quale si sta
partecipando, l’appalto della tua azienda) invoca
l’applicazione della 241/1990;
• se sei un giornalista e stai scrivendo un pezzo su un
argomento per il quale ti serve un documento, richiama
l’applicazione della 241/1990 e specifica che in quanto
giornalista sei “portatore di interesse pubblico in quanto
soggetto titolare di diritto di cronaca ai sensi dell’articolo 21
della Costituzione”;
• se vuoi un documento che riguarda le performance, i
provvedimenti, il personale, ecc. della Pubblica
Amministrazione, invoca il Decreto 33/2013.
14/12/15Titolo Presentazione Pagina 110
Informazioni tramite “accesso civico”
• Organizzazione(organigramma, competenze e risorsedi ogni ufficio, contatti
telefonici e PEC, organi di indirizzopolitico-amministrativo)
• Consulenti e collaboratori (CV, l’atto di conferimento dell’incarico, attività
professionali parallele)
• Personale (dirigenti, incarichi amministrativi di vertice, dotazione organica,
tassi di assenza)
• Bandi di concorso per il reclutamento di personale
• Performance (relazionesulla performance, premi ricevuti per performance...)
• Enti controllati (elenco di società partecipate, enti pubblici e di dirittoprivato
vigilati, rappresentazioni grafiche dei rapporti PA-enti)
• Attivitàe procedimenti (dati aggregati attivitàamministrativa, elenco
tipologie procedimenti e contatto dei relativi responsabili, atti e modulistica... )
• Provvedimenti adottati dagli organi di indirizzopoliticoe dai dirigenti
(autorizzazioni; concessioni; sceltedel contraente per affidamento di lavori,
forniture e servizi; accordi stipulati conenti privati)
14/12/15Titolo Presentazione Pagina 111
Informazioni tramite “accesso civico”
• Controlli sulle imprese (tipologie di controllo sulle imprese a seconda delle dimensioni e
del settore; elenco di obblighi e adempimenti...)
• Bandi di gara e contratti
• Sovvenzioni, contributi, sussidi, vantaggi economici (criteri e modalità di
concessione; atti di concessione)
• Bilanci (preventivi e consuntivi)
• Beni immobili e gestione patrimonio (patrimonio immobiliare; canoni di locazione o
affitto)
• Controlli e rilievi sull’amministrazione (controlli sull’organizzazione e l’attività)
• Servizi erogati (carta dei servizi; standard di qualità dei servizi pubblici; costi e tempi di
erogazione dei servizi)
• Pagamenti dell'amministrazione (tempi medi di pagamento relativi agli acquisiti di beni,
servizi e forniture)
• Opere pubbliche(programmazione; tempi e costi previsti; relazioni annuali; pareri dei
valutatori)
• Pianificazione e governo del territorio (piani territoriali; strumenti urbanistici...)
• Informazioni ambientali (rilievi e analisi ambientali effettuate...)
• Elenco strutture sanitarie private e accreditate
• Interventi straordinari e d’emergenza (in caso di calamità)
14/12/15Titolo Presentazione Pagina 112
I passi del ricorso in Italia
14/12/15Titolo Presentazione Pagina 113
In Italia: iniziative editoriali e di ricerca
sull’accesso ai dati
• LegalLeaks, è una guida ricca di consigli pratici per
cittadini e giornalisti che vogliono ottenere l’accesso
all’informazione.
• The Silent State (by Open Society Foundation e
Diritto di Sapere) il primo rapporto sullo stato
dell’accessoall’informazione della Pubblica
Amministrazione in Italia.
14/12/15Titolo Presentazione Pagina 114
Risultati monitoraggio (The Silent State)
• Informazioni Ricevute (RISULTATO
CONFORME): le informazioni richieste
sono state ottenute, o a voce o in forma
scritta. L'informazione ottenuta
corrisponde all'informazione richiesta ed
è in forma completa.
• Accesso Parziale (RISULTATO
CONFORME): i documenti sono stati
forniti con parti mancanti o oscurate. Le
informazioni sono in altro modo
incomplete secondo quanto stabilito
dalla legge. Poiché́ le autorità̀ possono
stabilire delle eccezioni per cui è
possibile rifiutare l'accesso ad alcune
informazioni, l'accesso parziale è
considerato soddisfacente e conforme
al diritto di accesso.
• Risposta inadeguata (RISULTATO
NON CONFORME): Le informazioni
fornite sono insoddisfacenti oppure
incomplete, non rilevanti, o in qualche
altro modo non soddisfacenti,
dimostrando un'indifferenza verso il
rispetto del diritto d'accesso
all'informazione.
• Silenzio amministrativo (RISULTATO
NON CONFORME): Nessuna risposta
dalle istituzioni interpellate. Non è un
rifiuto esplicito, ma nessuna
informazione viene fornita.
• Rifiuto esplicito (RISULTATO NON
CONFORME): L'informazione richiesta
viene rifiutata con una risposta esplicita
e formale in forma scritta, in cui
vengono spiegate le motivazioni del
rifiuto. Il rifiuto esplicito fornisce la base
per un ricorso, e quindi può essere
comunque utile, pur non
rappresentando un risultato conforme.
14/12/15Titolo Presentazione Pagina 115
La risposta della PA alla richieste di accesso
14/12/15Titolo Presentazione Pagina 116
amministrativo una risposta non data entro 30 giorni, anche se nel nostro monitoraggio abbiamo esteso il
tempo di risposta fino a 60).
Il risultato peggiore è la generale mancanza di risposta da parte delle PA alle richieste di informazione. Poco
più di una richiesta su 10 (13%) riceve una risposta soddisfacente e andando a sommare tutte le motivazioni
di mancanza di risposta adeguata, in quasi 3 casi su 4 (73%), il richiedente non ha ricevuto l'informazione
richiesta.
Fig. 4. Esito delle riisposte per tipologia
8%
10%
13%
4% 65%
Come hanno risposto?
Insoddisfacente
Parzialmente soddisfacente
Pienamente soddisfacente
Rifiuto esplicito
Silenzio amministrativo
14/12/15Titolo Presentazione Pagina 117
14/12/15Titolo Presentazione Pagina 118
Caso 1. Lo stipendio dei Parlamentari siciliani
Promotori: Sicilia Informazioni (giornale online)
Istituzione che detiene i dati: Assemblea Regionale Siciliana
(Ars)
Sintesi: Il giornale online SiciliaInformazioni chiede informazioni
sugli stipendi dei deputati del parlamento siciliano. La richiesta
viene rifiutata sulla base della mancata individuazione specifica
dei documenti in questione e del costo della riproduzione. Il TAR,
però, accoglie il ricorso del giornale. Si tratta della prima volta
che un giornale online ha fatto ricorso dopo una risposta negativa
all’accesso agli atti vincendo la causa.
Criticità: L’Assemblea Regionale Siciliana si è rifiutata di fornire
le informazioni richieste fino alla sentenza del Tar.
14/12/15Titolo Presentazione Pagina 119
Caso 2. #scuolesicure
• Promotore:Elisabetta Tola (Wired)
• Istituzione che detiene i dati: Ministero dell’Istruzione
• Inchiesta:Le scuole italiane non sono sicure, le spese di ogni
regione
• Informazionirichieste:dati sulle verifiche sismiche nelle scuole,le
spese di ogni regione
• Sintesi: Abbiamo voluto capire che cosa era stato fatto in 10 anni di
leggi e stanziamentiper migliorare la sicurezza sismica delle scuole
italiane. L’inchiesta ha ricostruito una mappa delle verifiche effettuate
attraverso i fondi spesia livello locale, ma ha anche acceso un faro
sulla scarsissima trasparenza in materia di dati sulle verifiche
sismiche a livello nazionale.Solo due regioniitaliane (Lazio e
Abruzzo)pubblicano sia le spese delle verifiche,che gli indici di
rischio relativi alle scuole controllate.
• Criticità: Il Ministero dell’Istruzione,che possiede irisultati di tutte le
verifiche fino al 2009,non dà accesso a questi dati.
14/12/15Titolo Presentazione Pagina 120
Il DJ IN ITALIA E ALL’ESTERO
14/12/15Titolo Presentazione Pagina 121
US
• New York Times: le reazioni alla morte di Bin Laden
• ProPublica: testata fondata nel 2007 e finanziata
con donazioni di filantropi
– Inchiesta “Dollars for docs” sui pagamenti delle case
farmaceutiche ai medici per promuovere i propri farmaci.
– La legge US già prevedeva che le case farmaceutiche
rendessero noti i medici finanziati
– ProPublica sistematizza i dati
14/12/15Titolo Presentazione Pagina 122
ITALIA
14/12/15Titolo Presentazione Pagina 123
I quotidiani
• La Repubblica:
– http://www.repubblica.it/repdata/
– “Studenti ed esperti a confronto sui falsi miti dei vaccini”
– “La galassia jihadista…”
• Il Corriere della Sera:
– http://www.corriere.it/datablog/i-numeri-che-mangiamo/
– “I numeri che mangiamo”
• La Stampa:
– http://www.lastampa.it/Blogs/datablog
• IlSole24Ore:
– http://www.infodata.ilsole24ore.com/?refresh_ce=1
14/12/15Titolo Presentazione Pagina 124
Attivismo civico e altra testate: alcune iniziative
• Spaghetti Open Data (SOD)
• Datajournalism.it (ecco i dati geografici per costruire
mappe.. http://www.datajournalism.it/ecco-i-dati-
geografici-per-costruire-mappe/)
• Fondazione <ahref (tutorials)
• Wired: inchiesta sulle spese degli eurodeputati
14/12/15Titolo Presentazione Pagina 125
FRANCIA
14/12/15Titolo Presentazione Pagina 126
Quotidiani, testate indipendenti e attivismo
• Mediapart
– La carte de la crise sociale (aggiornabile dagli utenti via
email). Monitoraggio dei tagli ai posti di lavoro dal 2008
• OWNI78
– Le Véritomètre, una applicazione di fact-checking sulle
dichiarazioni dei candidati alle presidenziali 2012
• Le Figaro
– http://plus.lefigaro.fr/tag/service-infographie
• Le Monde
– http://data.blog.lemonde.fr
14/12/15Titolo Presentazione Pagina 127
REGNO UNITO
14/12/15Titolo Presentazione Pagina 128
The Guardian
• 1821 primo caso di data-driven journalism: un
inchiesta sulle scuole di Manchester
• 1921 Comment is free, but facts are sacred
(Charles Prestwich Scott)
• 2003 Web First (Alan Rusbridger)
• 2008 Integrazione tra redazione web, cartacea, e
the Observer
• 2009 Guardian Data (Simon Rogers): mantenere i
dati legati a un articolo aperti e aggiornati (google
docs) per far tornare il lettore.
• 2012 Show and Tell raccoglie le migliori
inforgrafiche pubblicate nel mondo
14/12/15Titolo Presentazione Pagina 129
Alcune inchieste del Guardian
• Capital punishment (2013)
• Where is it best to be old? (2015)
• Investigate your MP’s expensens
(2009)
• Wikileaks (2010)
14/12/15Titolo Presentazione Pagina 130
14/12/15Titolo Presentazione Pagina 131
Methodology
• The study is a content analysis of the use of data
journalism in UK national daily and Sunday
newspapers. The newspapers were collected from
11 to 24 March
• The newspapers are the Guardian, the Times, the
Daily Telegraph, the Independent, the Daily Mirror,
the Express, the Sun, the Daily Mail, the Observer,
the Sunday Times, the Sun on Sunday, the Sunday
Telegraph, the Independent on Sunday, the Mail on
Sunday and the Sunday Express.
• The selection of these papers resulted in a corpus
of more than 3000 stories, which were examined for
the evidence of data journalism
14/12/15Titolo Presentazione Pagina 132
Data-driven stories in all publications (by ownership)
14/12/15Titolo Presentazione Pagina 133
Subjects covered by data-driven stories
14/12/15Titolo Presentazione Pagina 134
Data-driven types in all publications
14/12/15Titolo Presentazione Pagina 135
Type of data elements used in each subject area
14/12/15Titolo Presentazione Pagina 136
Complexity
(1) Number pullquote – a single numerical fact, presented out of context and without comment
(1) Static map – a location identifier, a graphical dateline, with one or more locations
identified
(2) List and timelines – a one dimensional ranking of a series of data points
(3) Table – a two-dimensional presentation of data in a grid format. This is arguably more
complex than a graph or chart, but it requires less analysis or
interpretation on the part of the journalist.
(3) and (4) Graphs and charts – a visual representation of two-dimensional
information. These were further divided into simple, and complex data sets.
(4) Dynamic map – a map showing locations in relationship to time or other
values
(5) Textual analysis – a complex discussion of numerical information in the text
(5) Infographic
14/12/15Titolo Presentazione Pagina 137
Visual appeal
(0) Textual analysis
(1) Number pullquote or table
(2) Timeline or list (although a list is arguably less
visual than a table, examination of the elements
shows that lists were almost always combined
with images)
(3) Static map, chart or graph
(4) Dynamic map
(5) Infographic
14/12/15Titolo Presentazione Pagina 138
Complexity vs appeal (by newspapers)
14/12/15Titolo Presentazione Pagina 139
Complexity rating
14/12/15Titolo Presentazione Pagina 140
Visual appeal rating
14/12/15Titolo Presentazione Pagina 141

Data Journalism

  • 1.
    Media digitali eData Journalism- Laboratorio Data Journalism (9 cfu) Marzia Antenore Coris – La Sapienza
  • 2.
  • 6.
  • 7.
  • 8.
    The Formation ofLove (by Carlos Diuk, Facebook Data Science) Relationships start with a period of courtship… 14/12/15Titolo Presentazione Pagina 8
  • 9.
    The Formation ofLove (by Carlos Diuk, Facebook Data Science) The proportion of positiveover negative feelings being expressedin timeline posts before and after the beginning of a relationship 14/12/15Titolo Presentazione Pagina 9
  • 10.
    Nominare nelle catene(di libri) 14/12/15Titolo Presentazione Pagina 10
  • 11.
    Books that havestayed with us 14/12/15Titolo Presentazione Pagina 11
  • 12.
    Connections between thebooks, e.g. 'people who listed X also listed Y' 14/12/15Titolo Presentazione Pagina 12
  • 13.
    The Links ofLove Facebook Data Science 14/12/15Titolo Presentazione Pagina 13
  • 14.
    Small-world experiment (StanleyMilgram, 1967) 14/12/15Titolo Presentazione Pagina 14 • 296 lettere consegnate a abitanti del Kansas e dintorni da far pervenire ad abitanti di Boston e dintorni • Le lettere contenevano nome e cognome del destinatario e alcune info di base (ad esempio, professione, età, ecc.), ma non l’indirizzodel destinatario • Se la persona conosceva direttamente il destinatario avrebbe dovuto consegnargliela. • Se non lo conosceva, avrebbe dovuto consegnarla a una persona che aveva probabilità di conoscerlo.
  • 15.
    Peter Sheridan Dodds-Science (2003) • Dodds usò un messaggio e-mail come "pacchetto" che doveva essere consegnato • Scelse 18 destinati sparsi nel mondo (un consulente tecnologico in India, un poliziotto in Australia e un veterinario in Norvegia) • Raccolse 61.000 invii di persone di oltre 160 Stati • Trovò che i gradi di separazione erano tra 5 e 7 14/12/15Titolo Presentazione Pagina 15
  • 16.
    MSN Messenger (2006) •Due ricercatori di Microsoft, sfruttando i log delle conversazioni attraverso MSN Messenger, hanno dimostrato che fra due utenti del programma vi sono in media 6,6 gradi di separazione. 14/12/15Titolo Presentazione Pagina 16
  • 17.
    ABC (2006) • Unanota giornalista newyorkese deve entrare in contatto con un disoccupato (ex pugile). Ci riesce in 6 passaggi. • L’ex pugile deve entrare in contatto con una ballerina. Ci riesce in 5 passaggi. • NB: I sei gradi di separazione non dipendono dallo status 14/12/15Titolo Presentazione Pagina 17
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
    CROWDFUNDING Progetti di informazionefinanziati da donazioni volontarie 14/12/15Titolo Presentazione Pagina 22
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
    CROWDSOURCING Progetti di informazionesviluppati dai giornalisti in collaborazione con i cittadini 14/12/15Titolo Presentazione Pagina 28
  • 29.
  • 30.
  • 31.
    Fondazione “<Ahref” • «Ildata journalism, (giornalismo basato sui dati) è un approccio a cavallo tra ricerca e inchiesta giornalistica che fa un uso intensivo di database, mappe digitali e software per analizzare, raccontare e visualizzare un fenomeno o una notizia, spesso producendo dei mashup di elementi diversi. La digitalizzazione dei dati e lo sviluppo di Internet sono considerate un'opportunità senza precedenti per l'innovazione del giornalismo che negli ultimi anni ha già prodotto diversi premi Pulitzer e sta facendo emergere nuove figure di giornalisti- programmatori». 14/12/15Titolo Presentazione Pagina 31
  • 32.
    Tony Hirst: i3 modi di vedere il DJ • Un particolare tipo di visualizzazione (grafici, infografiche, mappe interattive, ecc.). • Un particolare tipo di processo (che coinvolge i dati ma non necessariamente in via esclusiva) • Un insieme di competenze (statistica, visual design, sociologia, informatica) 14/12/15Titolo Presentazione Pagina 32
  • 33.
    IL DJ negliannunci di lavoro del Trinity Mirror (I gruppo editoriale UK) 14/12/15Titolo Presentazione Pagina 33
  • 34.
    Annuncio di lavorodel Financial Times 14/12/15Titolo Presentazione Pagina 34
  • 35.
    Philip Meyer (1970) •Nuovo Giornalismo • Il caso della giornalista giornalista del Washington Post Janet Cooke (1980) • Il primato del metodo scientifico • Evidence-based narrative: • un processo che implica una buona narrazione basata su prove verificabili • I dati grezzi richiedono una struttura che li renda coerenti, anche se attraverso mezzi differenti 14/12/15Titolo Presentazione Pagina 35
  • 36.
    Florence Nightingale Grafico dellecause di mortalità nell'esercito in Oriente 14/12/15Titolo Presentazione Pagina 36
  • 37.
    COMPUTER-ASSISTED REPORTING (CAR) •Venne utilizzato per la prima volta nel 1952 dalla CBS (Columbia Broadcasting System) per prevedere il risultato delle elezioni presidenziali nazionali • 14/12/15Titolo Presentazione Pagina 37
  • 38.
    Philip Meyer “Thepeople beyond 12th Street: a survey of attitudes of Detroit negroes after the riot of 1967” (premio Pulitzer in Giornalismo locale) • Una delle rivolte civili più sanguinose della storia degli Stati Uniti: • 5 giorni • 43 morti • 1.189 feriti • oltre di 2.000 edifici distrutti • 500 milioni di dollari di danni 14/12/15Titolo Presentazione Pagina 38
  • 39.
    Le premesse • Pienosviluppo delle tecniche statistiche • Software con interfacce “user friendly” e a costi ridotti (data-text: 10$) • Molte teorie sulle componenti della rivolta risiedevano nella “saggezza popolare” – I rivoltosi avevano uno status socioeconomico basso rispetto alla media della popolazione – I rivoltosi provenivano dal Sud rurale e si erano male integrati nel Nord industrializzato 14/12/15Titolo Presentazione Pagina 39
  • 40.
    L’indagine di Meyer «Questateoria può essere verificata da una ricerca analitica. Se si riesce a identificare i rivoltosi e a confrontarli con i non rivoltosi si troverà, se la teoria è vera, che gli individui con meno istruzione hanno maggiore probabilità di partecipare alla rivolta». 14/12/15Titolo Presentazione Pagina 40
  • 41.
    L’articolo di Meyersul Detroit Free Press 14/12/15Titolo Presentazione Pagina 41
  • 42.
    Bill Dedman “Thecolor of money” • 5 mesi • 109.000 mutui concessi (1981 e il 1986) • 64 quartieri (39 bianchi, 14 neri e 11 integrati) • a reddito medio (tra i $12.849 e i $22.393) • 82.610 mutui per acquisto abitazione • 26.721 prestiti per ristrutturazione • Dati del Federal Financial Institutions Examination Council (Freedom of Information Act) • Dati demografici del censimento del 1980 14/12/15Titolo Presentazione Pagina 42
  • 43.
  • 44.
    Stephen K. Doig“What Went Wrong” (Miami Herald, 1992) • Indagine sull’uragano“Andrew”che colpì la Florida meridionale e Miami in particolare. • Moriono 65 persone • 26,5 miliaridi di $ di danni • Quadro dei crolli molto disomogeneoma con uno specifico pattern:i dannivariavano non a seconda della direzione delvento ma in base ai quartieri • Più della forza dell’uragano,a distruggere i tetti della città era stata la corruzione nell’edilizia,che il team di giornalisti aveva sottoposto a rigorose analisimediante verifiche agli edifici danneggiati, registrazionimeteorologiche e certificatidi agibilità̀ edilizia. 14/12/15Titolo Presentazione Pagina 44
  • 45.
    Il DJ comeprocesso: modelli e tipi di fonte di dati 14/12/15Titolo Presentazione Pagina 45
  • 46.
    La nascita deldata-driven journalism (anni ‘80) • Sviluppo di tecnologie di elaborazione computer-based • Diffusione di Internet • Diffusione e ampliamento delle banche dati online • Le redazioni si aprono a nuove figure professionali 14/12/15Titolo Presentazione Pagina 46
  • 47.
  • 48.
  • 49.
  • 50.
  • 51.
    Raccogliere dati • Interrogativocui si cerca di rispondere tramite i dati (“Small world experiment”) • Set di dati disponibili che si interrogano alla ricerca di una storia (“db incidenti stradali”, “stipendi”) • Fonti ufficiali (Istat, ministeri, enti locali, ecc.) • Sondaggi • Scraping • API (Application Programming Interface) 14/12/15Titolo Presentazione Pagina 51
  • 52.
    Pulire i dati •Errori di duplicazione (matrice con celle ridondanti) • Errori materiali di battitura (“errori di stompa”) • Errori di formattazione (“7/10/2015; 07/10/2015; 10/07/2015) • Missing values • Excel (filtri e “trova e sostituisci”) oppure Google docs • Open Refine 14/12/15Titolo Presentazione Pagina 52
  • 53.
    Contestualizzare i dati •Chi li ha raccolti, con quale obiettivo, usando quale metodo, tutti o un campione, probabilistico o no? • Come possiamo utilizzarli senza essere parziali o faziosi? • La stampa sulle condizioni della sanità in Italia • Il caso #doveticuri http://doveticuri.mitecube.com 14/12/15Titolo Presentazione Pagina 53
  • 54.
    Rappresentazioni della sanitàitaliana 14/12/15Titolo Presentazione Pagina 54
  • 55.
  • 56.
    Combinare i dati •Ottenere informazioni da più data set (mash up) • Dati sugli incidenti stradali (Comune di Roma) con dati sulla manutenzione del manto stradale (Servizio di manutenzione del patrimonio Comune di Roma) 14/12/15Titolo Presentazione Pagina 56
  • 57.
    Comunicare i datiai lettori: Visualizzazione • Mix di abilità individuali(gusto estetico,abilità narrative) e apprendimento (uso di programmidi grafica) • L’infografica rende più chiara una storia? • Rischio di produrre chartjunk • Autosufficiente? • 1) making sure the image contains a link back to its source;and 2) making sure that there is something more at the source when people arrive. 14/12/15Titolo Presentazione Pagina 57
  • 58.
    Social Communication (Crowdsourcing) •Invitare i lettori a contribuire alla notizia attraverso dati, racconti personali, esperienze, revisioni di fonti messe online. 14/12/15Titolo Presentazione Pagina 58
  • 59.
    Narrazione • Less ismore • Astrazioni sulle cifre (1 milione di macchine vendute è una dato importante ma il dato, da solo, significa poco..). – Dove – In quali anni – Quali auto – Cosa accade altrove? – Cosa accade in altri mercati? – …….. 14/12/15Titolo Presentazione Pagina 59
  • 60.
  • 61.
  • 62.
  • 63.
    Le spese diMarino sul sito del Comune di Roma 14/12/15Titolo Presentazione Pagina 63
  • 64.
    Umanizzare • Quando silavora su numeri di scala difficilmente comprensibili, allora è altrettanto complicato riuscire a coinvolgere le persone, a prescindere dall’impatto della grafica. Pertanto è necessario tenere a mente che una semplice intervista a una persona che è stata influenzata da quel tipo di dati può̀ fare la differenza relativamente all’impatto dell’articolo • Per avvicinare i lettori ai numeri, si possono usare anche narrazioni in filmati: Truenumbers 14/12/15Titolo Presentazione Pagina 64
  • 65.
    Personalizzazione • Molto comuneè la personalizzazione geografica: gli utenti sono invitati inserire il proprio CAP o altre informazioni per calcolare l’impatto di alcuni provvedimenti (http://www.bbc.co.uk/news/business-12773565) • “Oscurantismo” degli algoritmi (da Google a Facebook, a Twitter, a Uber, a Amazon) • Siamo in una bolla comunicativa? 14/12/15Titolo Presentazione Pagina 65
  • 66.
    Utilizzo • Standard diarchiviazione dei dati • Licenze di utilizzo 14/12/15Titolo Presentazione Pagina 66
  • 67.
  • 68.
  • 69.
    link • https://sites.google.com/site/fusiontablestalks/storie s (gallery) •https://www.google.com/fusiontables/DataSource?d srcid=308519#map:id=3 (icons) • https://support.google.com/fusiontables/answer/124 4603?hl=en&vid=1-635809588766296612- 1701645149#custompopup (info windows) • https://wiki.digitalmethods.net/Dmi/ToolInstagramSc raper • Coordinates of New York in decimal degrees • http://dateandtime.info/citycoordinates.php?id=5128 581 14/12/15Titolo Presentazione Pagina 69
  • 70.
  • 71.
    US Poverty Mapped 14/12/15TitoloPresentazione Pagina 71
  • 72.
  • 73.
    Preparare i dati •Lasciare solo i dati necessari alla visualizzazione della mappa (Quali ci interessano?) • Controllare la corretta dicitura della colonna “Paese” per la georeferenziazione • Cambiare il formato delle celle (senza decimali) 14/12/15Titolo Presentazione Pagina 73
  • 74.
    Create a FusionTable 14/12/15Titolo Presentazione Pagina 74
  • 75.
    L’accesso ai dati:le fonti • Soggetti che, per mission o meno, pubblicano online i propri data warehouse permettendone la consultazione (Istat, Eurostat, The World Bank, l’Organizzazione Mondiale della Sanità, governi, Camere, Dipartimenti, No profit, PA….ecc.) • Soggetti che non hanno pubblicato i dati online ma possono ricevere, in base alla legge sulla trasparenza e l’accesso ai dati del PA (L. 241/90 e 33/2013), richieste scritte di accesso. • Dati destrutturati presenti in Rete e accessibili tramite tools (post, foto, tags, file pdf. ecc.). 14/12/15Titolo Presentazione Pagina 75
  • 76.
    RACCOLTA E PULIZIA 14/12/15TitoloPresentazione Pagina 76
  • 77.
    Data Wrangling Data mungingor data wrangling is the process of manually converting or mapping data from one "raw" form into another format that allows for more convenient consumption of the data with the help of semi-automated tools. 14/12/15Titolo Presentazione Pagina 77
  • 78.
  • 79.
  • 80.
    Data scraping Web scrapingis a term for various methods used to collect information from across the Internet. Generally, this is done with software that simulates human Web surfingto collect specifiedbits of information from different websites. Those who use web scraping programs may be looking to collect certain data to sell to other users, or to to use for promotional purposes on a website. Web scraping is also called Web data extraction, screen scraping or Web harvesting. 14/12/15Titolo Presentazione Pagina 80
  • 81.
  • 82.
  • 83.
  • 84.
  • 85.
  • 86.
  • 87.
  • 88.
  • 89.
  • 90.
  • 91.
  • 92.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97.
    Google Map Maker 14/12/15TitoloPresentazione Pagina 97
  • 98.
    OPEN DATA Il DJnasce dal connubio del “giornalismo di precisione” con gli… 14/12/15Titolo Presentazione Pagina 98
  • 99.
    Open Data “Dati chepossono essere liberamente utilizzati, riutilizzati e ridistribuiti da chiunque, soggetti eventualmente alla necessità di citarne la fonte e di condividerli con lo stesso tipo di licenza con cui sono stati originariamente rilasciati” Open Knowledge Foundation 14/12/15Titolo Presentazione Pagina 99
  • 100.
    Freedom of InformationAct (FOIA) • La più importante legge US in materia di accesso pubblico all’informazione statale emanata il 4 Luglio 1966 dal Presidente Lyndon Johnson. • Tutte le Agenzie di Stato hanno il dovere di divulgare i documenti che vengono loro richiesti tramite un’istanza scritta effettuata da un cittadino degli Stati Uniti o appartenente ad una nazione straniera, da organizzazioni, società, corporazioni, da un governo locale, un’associazioneo un’università. 14/12/15Titolo Presentazione Pagina 100
  • 101.
    I precedenti • 1766la Svezia con l’Atto sulla Libertà di Stampa • 1951 la Finlandia approva un atto simile al FOIA • 1989 la società̀ civile dell’Europa centrale e orientale ha reclamato questo diritto come parte del cambiamento durante le transizioni post-comuniste 14/12/15Titolo Presentazione Pagina 101
  • 102.
    Numero di leggisull’accesso (1766-2011) 14/12/15Titolo Presentazione Pagina 102
  • 103.
    Repository di dati:US, UK, EU • http://www.data.gov • https://data.gov.uk • https://open-data.europa.eu/it/data 14/12/15Titolo Presentazione Pagina 103
  • 104.
    In Italia • Carenzadi repository di dati • Legge n. 241 del 7 agosto 1990 e successivi aggiornamenti (ancora molto restrittive in termini di diritto di accesso agli atti e trasparenza) • A partire dal 2009 una serie di leggi sull’accesso ai dati (Legge 15/2009; Legge 150/2009; Legge 183/2010; Decreto Crescita 2.0 - Agenda digitale; Decreto Legge n. 83/2012; Decreto Trasparenza 33/2013) 14/12/15Titolo Presentazione Pagina 104
  • 105.
    Alcuni data setdisponibili in Italia Dataset Europa • https://open-data.europa.eu/it/data • http://www.publicdata.eu/ Dataset nazionali • http://www.dati.gov.it/ • http://dati.senato.it/home • http://dati.camera.it/it/ • http://www.datiopen.it/ • http://dati.istat.it/ Dataset regionali • https://www.dati.lombardia.it/ • http://www.regione.liguria.it/opendata.ht ml • http://dati.toscana.it/ • http://dati.umbria.it/ • http://dati.veneto.it/ • http://opendata.regione.sardegna.it/ • https://www.dati.friuliveneziagiulia.it/ • https://dati.lazio.it/ • http://www.dati.piemonte.it/ • http://dati.emilia-romagna.it/ • http://dati.comune.roma.it/ • http://www.opendata.provincia.roma.it/ Dataset comunali • http://www.openbilanci.it/ • …………. 14/12/15Titolo Presentazione Pagina 105
  • 106.
    Il diritto diaccesso all’informazione delle PA Il diritto di accesso si compone di due elementi (proattivo e reattivo), tali da generare obblighi differenti, ma complementari, per le istituzioni pubbliche: • Divulgazione proattiva:l'obbligo perla PA di fornire, pubblicaree diffondere informazioniriguardo alla propria attività̀ , alle spese effettuate e alle politiche messe in campo in modo da permettere una consultazione libera e facile da parte dei cittadini. • Divulgazione reattiva:il diritto da parte dei cittadini di richiedere alle istituzioniqualunque tipo di informazione prodotta e posseduta dalle PA e di ricevere risposta. 14/12/15Titolo Presentazione Pagina 106
  • 107.
    Legge n. 241del 7 agosto 1990: alcuni principi • con “diritto di accesso”si intende il diritto degli interessatidi prendere visione ed estrarre copia dei documentiamministrativi; • con “interessati” si intende tutti i soggettiprivati (compresiquelli portatori di interessipubblicio diffusi) che abbiano un interesse diretto, concreto e attuale,corrispondente ad una situazione giuridicamente tutelata e collegata al documento al quale è chiesto l'accesso; • le richieste di accesso mirate a un controllo generalizzato della Pubblica Amministrazione non sono considerate ammissibili; • le istituzionidevono rispondere alle richieste entro 30 giorni, ma possono sottrarre l'accesso a informazionirelative a sicurezza,difesa nazionale,relazioniinternazionali,ordine pubblico e politica monetaria e valutaria. 14/12/15Titolo Presentazione Pagina 107
  • 108.
    Standard Italiano vs.standard internazionale Italiano: le richieste sono presentate secondo i requisiti previsti dall'attuale legge italiana sul diritto di accesso (L. 241/1990), che stabilisce che i richiedenti debbano fornire una copia del proprio documento d'identità e motivare il loro legittimo interesse all'accesso alle informazioni richieste. • Internazionale: le richieste possono essere fatte senza la necessità di dichiarare la motivazione alla base della richiesta, né fornendo dettagli sull'affiliazione del richiedente o personali, a parte le informazioni strettamente necessarie per poter rispondere a chi ha presentato la richiesta. 14/12/15Titolo Presentazione Pagina 108
  • 109.
    Decreto legislativo 33/2013(“Decreto trasparenza”) Trasparenza: “accessibilità totale delle informazioni concernenti l’organizzazione e le attività delle PA, allo scopo di favorire forme diffuse di controllo sul perseguimento delle funzioni istituzionalie l’utilizzo delle risorse pubbliche”. Accesso civico: “l’obbligo di pubblicare documenti e informazioni comporta il diritto di chiunque di richiederli, se la pubblicazione ne sia stata omessa” Criticità: questa misura si applica solo alle informazioni che avrebbero già dovute essere pubblicate sui siti della PA 14/12/15Titolo Presentazione Pagina 109
  • 110.
    A quale leggefare riferimento per chiedere un accesso ai dati? • Se si vuole richiedere un documento che tocca un proprio interesse specifico (un concorso al quale si sta partecipando, l’appalto della tua azienda) invoca l’applicazione della 241/1990; • se sei un giornalista e stai scrivendo un pezzo su un argomento per il quale ti serve un documento, richiama l’applicazione della 241/1990 e specifica che in quanto giornalista sei “portatore di interesse pubblico in quanto soggetto titolare di diritto di cronaca ai sensi dell’articolo 21 della Costituzione”; • se vuoi un documento che riguarda le performance, i provvedimenti, il personale, ecc. della Pubblica Amministrazione, invoca il Decreto 33/2013. 14/12/15Titolo Presentazione Pagina 110
  • 111.
    Informazioni tramite “accessocivico” • Organizzazione(organigramma, competenze e risorsedi ogni ufficio, contatti telefonici e PEC, organi di indirizzopolitico-amministrativo) • Consulenti e collaboratori (CV, l’atto di conferimento dell’incarico, attività professionali parallele) • Personale (dirigenti, incarichi amministrativi di vertice, dotazione organica, tassi di assenza) • Bandi di concorso per il reclutamento di personale • Performance (relazionesulla performance, premi ricevuti per performance...) • Enti controllati (elenco di società partecipate, enti pubblici e di dirittoprivato vigilati, rappresentazioni grafiche dei rapporti PA-enti) • Attivitàe procedimenti (dati aggregati attivitàamministrativa, elenco tipologie procedimenti e contatto dei relativi responsabili, atti e modulistica... ) • Provvedimenti adottati dagli organi di indirizzopoliticoe dai dirigenti (autorizzazioni; concessioni; sceltedel contraente per affidamento di lavori, forniture e servizi; accordi stipulati conenti privati) 14/12/15Titolo Presentazione Pagina 111
  • 112.
    Informazioni tramite “accessocivico” • Controlli sulle imprese (tipologie di controllo sulle imprese a seconda delle dimensioni e del settore; elenco di obblighi e adempimenti...) • Bandi di gara e contratti • Sovvenzioni, contributi, sussidi, vantaggi economici (criteri e modalità di concessione; atti di concessione) • Bilanci (preventivi e consuntivi) • Beni immobili e gestione patrimonio (patrimonio immobiliare; canoni di locazione o affitto) • Controlli e rilievi sull’amministrazione (controlli sull’organizzazione e l’attività) • Servizi erogati (carta dei servizi; standard di qualità dei servizi pubblici; costi e tempi di erogazione dei servizi) • Pagamenti dell'amministrazione (tempi medi di pagamento relativi agli acquisiti di beni, servizi e forniture) • Opere pubbliche(programmazione; tempi e costi previsti; relazioni annuali; pareri dei valutatori) • Pianificazione e governo del territorio (piani territoriali; strumenti urbanistici...) • Informazioni ambientali (rilievi e analisi ambientali effettuate...) • Elenco strutture sanitarie private e accreditate • Interventi straordinari e d’emergenza (in caso di calamità) 14/12/15Titolo Presentazione Pagina 112
  • 113.
    I passi delricorso in Italia 14/12/15Titolo Presentazione Pagina 113
  • 114.
    In Italia: iniziativeeditoriali e di ricerca sull’accesso ai dati • LegalLeaks, è una guida ricca di consigli pratici per cittadini e giornalisti che vogliono ottenere l’accesso all’informazione. • The Silent State (by Open Society Foundation e Diritto di Sapere) il primo rapporto sullo stato dell’accessoall’informazione della Pubblica Amministrazione in Italia. 14/12/15Titolo Presentazione Pagina 114
  • 115.
    Risultati monitoraggio (TheSilent State) • Informazioni Ricevute (RISULTATO CONFORME): le informazioni richieste sono state ottenute, o a voce o in forma scritta. L'informazione ottenuta corrisponde all'informazione richiesta ed è in forma completa. • Accesso Parziale (RISULTATO CONFORME): i documenti sono stati forniti con parti mancanti o oscurate. Le informazioni sono in altro modo incomplete secondo quanto stabilito dalla legge. Poiché́ le autorità̀ possono stabilire delle eccezioni per cui è possibile rifiutare l'accesso ad alcune informazioni, l'accesso parziale è considerato soddisfacente e conforme al diritto di accesso. • Risposta inadeguata (RISULTATO NON CONFORME): Le informazioni fornite sono insoddisfacenti oppure incomplete, non rilevanti, o in qualche altro modo non soddisfacenti, dimostrando un'indifferenza verso il rispetto del diritto d'accesso all'informazione. • Silenzio amministrativo (RISULTATO NON CONFORME): Nessuna risposta dalle istituzioni interpellate. Non è un rifiuto esplicito, ma nessuna informazione viene fornita. • Rifiuto esplicito (RISULTATO NON CONFORME): L'informazione richiesta viene rifiutata con una risposta esplicita e formale in forma scritta, in cui vengono spiegate le motivazioni del rifiuto. Il rifiuto esplicito fornisce la base per un ricorso, e quindi può essere comunque utile, pur non rappresentando un risultato conforme. 14/12/15Titolo Presentazione Pagina 115
  • 116.
    La risposta dellaPA alla richieste di accesso 14/12/15Titolo Presentazione Pagina 116 amministrativo una risposta non data entro 30 giorni, anche se nel nostro monitoraggio abbiamo esteso il tempo di risposta fino a 60). Il risultato peggiore è la generale mancanza di risposta da parte delle PA alle richieste di informazione. Poco più di una richiesta su 10 (13%) riceve una risposta soddisfacente e andando a sommare tutte le motivazioni di mancanza di risposta adeguata, in quasi 3 casi su 4 (73%), il richiedente non ha ricevuto l'informazione richiesta. Fig. 4. Esito delle riisposte per tipologia 8% 10% 13% 4% 65% Come hanno risposto? Insoddisfacente Parzialmente soddisfacente Pienamente soddisfacente Rifiuto esplicito Silenzio amministrativo
  • 117.
  • 118.
  • 119.
    Caso 1. Lostipendio dei Parlamentari siciliani Promotori: Sicilia Informazioni (giornale online) Istituzione che detiene i dati: Assemblea Regionale Siciliana (Ars) Sintesi: Il giornale online SiciliaInformazioni chiede informazioni sugli stipendi dei deputati del parlamento siciliano. La richiesta viene rifiutata sulla base della mancata individuazione specifica dei documenti in questione e del costo della riproduzione. Il TAR, però, accoglie il ricorso del giornale. Si tratta della prima volta che un giornale online ha fatto ricorso dopo una risposta negativa all’accesso agli atti vincendo la causa. Criticità: L’Assemblea Regionale Siciliana si è rifiutata di fornire le informazioni richieste fino alla sentenza del Tar. 14/12/15Titolo Presentazione Pagina 119
  • 120.
    Caso 2. #scuolesicure •Promotore:Elisabetta Tola (Wired) • Istituzione che detiene i dati: Ministero dell’Istruzione • Inchiesta:Le scuole italiane non sono sicure, le spese di ogni regione • Informazionirichieste:dati sulle verifiche sismiche nelle scuole,le spese di ogni regione • Sintesi: Abbiamo voluto capire che cosa era stato fatto in 10 anni di leggi e stanziamentiper migliorare la sicurezza sismica delle scuole italiane. L’inchiesta ha ricostruito una mappa delle verifiche effettuate attraverso i fondi spesia livello locale, ma ha anche acceso un faro sulla scarsissima trasparenza in materia di dati sulle verifiche sismiche a livello nazionale.Solo due regioniitaliane (Lazio e Abruzzo)pubblicano sia le spese delle verifiche,che gli indici di rischio relativi alle scuole controllate. • Criticità: Il Ministero dell’Istruzione,che possiede irisultati di tutte le verifiche fino al 2009,non dà accesso a questi dati. 14/12/15Titolo Presentazione Pagina 120
  • 121.
    Il DJ INITALIA E ALL’ESTERO 14/12/15Titolo Presentazione Pagina 121
  • 122.
    US • New YorkTimes: le reazioni alla morte di Bin Laden • ProPublica: testata fondata nel 2007 e finanziata con donazioni di filantropi – Inchiesta “Dollars for docs” sui pagamenti delle case farmaceutiche ai medici per promuovere i propri farmaci. – La legge US già prevedeva che le case farmaceutiche rendessero noti i medici finanziati – ProPublica sistematizza i dati 14/12/15Titolo Presentazione Pagina 122
  • 123.
  • 124.
    I quotidiani • LaRepubblica: – http://www.repubblica.it/repdata/ – “Studenti ed esperti a confronto sui falsi miti dei vaccini” – “La galassia jihadista…” • Il Corriere della Sera: – http://www.corriere.it/datablog/i-numeri-che-mangiamo/ – “I numeri che mangiamo” • La Stampa: – http://www.lastampa.it/Blogs/datablog • IlSole24Ore: – http://www.infodata.ilsole24ore.com/?refresh_ce=1 14/12/15Titolo Presentazione Pagina 124
  • 125.
    Attivismo civico ealtra testate: alcune iniziative • Spaghetti Open Data (SOD) • Datajournalism.it (ecco i dati geografici per costruire mappe.. http://www.datajournalism.it/ecco-i-dati- geografici-per-costruire-mappe/) • Fondazione <ahref (tutorials) • Wired: inchiesta sulle spese degli eurodeputati 14/12/15Titolo Presentazione Pagina 125
  • 126.
  • 127.
    Quotidiani, testate indipendentie attivismo • Mediapart – La carte de la crise sociale (aggiornabile dagli utenti via email). Monitoraggio dei tagli ai posti di lavoro dal 2008 • OWNI78 – Le Véritomètre, una applicazione di fact-checking sulle dichiarazioni dei candidati alle presidenziali 2012 • Le Figaro – http://plus.lefigaro.fr/tag/service-infographie • Le Monde – http://data.blog.lemonde.fr 14/12/15Titolo Presentazione Pagina 127
  • 128.
  • 129.
    The Guardian • 1821primo caso di data-driven journalism: un inchiesta sulle scuole di Manchester • 1921 Comment is free, but facts are sacred (Charles Prestwich Scott) • 2003 Web First (Alan Rusbridger) • 2008 Integrazione tra redazione web, cartacea, e the Observer • 2009 Guardian Data (Simon Rogers): mantenere i dati legati a un articolo aperti e aggiornati (google docs) per far tornare il lettore. • 2012 Show and Tell raccoglie le migliori inforgrafiche pubblicate nel mondo 14/12/15Titolo Presentazione Pagina 129
  • 130.
    Alcune inchieste delGuardian • Capital punishment (2013) • Where is it best to be old? (2015) • Investigate your MP’s expensens (2009) • Wikileaks (2010) 14/12/15Titolo Presentazione Pagina 130
  • 131.
  • 132.
    Methodology • The studyis a content analysis of the use of data journalism in UK national daily and Sunday newspapers. The newspapers were collected from 11 to 24 March • The newspapers are the Guardian, the Times, the Daily Telegraph, the Independent, the Daily Mirror, the Express, the Sun, the Daily Mail, the Observer, the Sunday Times, the Sun on Sunday, the Sunday Telegraph, the Independent on Sunday, the Mail on Sunday and the Sunday Express. • The selection of these papers resulted in a corpus of more than 3000 stories, which were examined for the evidence of data journalism 14/12/15Titolo Presentazione Pagina 132
  • 133.
    Data-driven stories inall publications (by ownership) 14/12/15Titolo Presentazione Pagina 133
  • 134.
    Subjects covered bydata-driven stories 14/12/15Titolo Presentazione Pagina 134
  • 135.
    Data-driven types inall publications 14/12/15Titolo Presentazione Pagina 135
  • 136.
    Type of dataelements used in each subject area 14/12/15Titolo Presentazione Pagina 136
  • 137.
    Complexity (1) Number pullquote– a single numerical fact, presented out of context and without comment (1) Static map – a location identifier, a graphical dateline, with one or more locations identified (2) List and timelines – a one dimensional ranking of a series of data points (3) Table – a two-dimensional presentation of data in a grid format. This is arguably more complex than a graph or chart, but it requires less analysis or interpretation on the part of the journalist. (3) and (4) Graphs and charts – a visual representation of two-dimensional information. These were further divided into simple, and complex data sets. (4) Dynamic map – a map showing locations in relationship to time or other values (5) Textual analysis – a complex discussion of numerical information in the text (5) Infographic 14/12/15Titolo Presentazione Pagina 137
  • 138.
    Visual appeal (0) Textualanalysis (1) Number pullquote or table (2) Timeline or list (although a list is arguably less visual than a table, examination of the elements shows that lists were almost always combined with images) (3) Static map, chart or graph (4) Dynamic map (5) Infographic 14/12/15Titolo Presentazione Pagina 138
  • 139.
    Complexity vs appeal(by newspapers) 14/12/15Titolo Presentazione Pagina 139
  • 140.
  • 141.
    Visual appeal rating 14/12/15TitoloPresentazione Pagina 141