SlideShare a Scribd company logo
Open data e data science
Dati per capire e comunicare
18 Febbraio 2017
Ghirardi Nicola
Master “Web communication e social media”
Fact checking
“There are three kinds
of lies: lies, damned
lies and statistics”
Dati sbagliati
Errori di visualizzazione dati
(e la scelta della
visualizzazione: 1 , 2 )
Fallacie logiche e statistiche
Eccessiva generalizzazione
(la trappola delle medie e
confronti inadeguati)
Ipotesi nella raccolta dati: quantificazione
Nel linguaggio
Nella raccolta dati
Ipotesi nella raccolta dati: bias nascosti
Campionatura casuale
● Area specifica
● Autoselezione
● Passaparola (la bolla)
Altri bias
● Autocertificazione
● Domande che inducono una
risposta
Campionatura, margine d’errore e
livello di confidenza (e grandezza
campione)
Il caso: p-value
Indica la probabilità che i dati derivati da un campione siano dovuti al caso, e
non rappresentino quindi il tutto
p<0,05 (5% prob) è preso come convenzione per escludere il caso
E’ applicato a modelli predittivi (e.g. trend di crescita o correlazione): con
p<0,05 allora la relazione è statisticamente significativa (non umanamente,
economicamente o scientificamente)
NON indica la probabilità che la correlazione o la causalità esistano
NON indica l’errore nei dati
Correlation is not causation
Spurious correlation
A/B testing (aka esperimento
controllato)
● Ricerca scientifica
● Applicazioni
Alla ricerca della verità
Sarebbe successo
altrimenti?
Confrontare realtà simili
Alla ricerca della verità (modelli di causalità)
Verità per eliminazione
Stimare le cause attraverso
● Parlare con esperti
● Chiedere agli interessati
● Studiare il dominio
● Caffe
● Studiare il lavoro di altri
● Cambiare idea
● Discutere con altri
Test
● Con dati
● Nella strada
Iterare
Dati non
strutturati :
analisi del testo
Le emozioni dei discorsi
inaugurali
Strumenti: analisi,
visualizzazione, coding
Digital humanities
Internet of people
Dati dai social network
Monitoraggio dei trend (e.g. reputation management)
Grafi sociali: un esperimento
Strumenti per l’analisi: gephi, python, graph db (e.g. neo4j)
Strumenti per la raccolta: APIs, google sheet plugins, fornitori di dati (e.g. Gnip)
Esempio di trasformazione dati
Le emozioni dei discorsi
inaugurali
Live fact checking
Finanziamenti
La rincorsa di trump
Lo sprint di Trump
Storie di dati,
politici e parole
Usare ricerche
esistenti
Statistica di base
(confronti, classifiche,.. )
Riassunto di ricerche
Il contesto
Prendere spunto dalle
ricerche esistenti
Dal globale al
locale
Giustizia nel mondo
Innovazione
Qualità dell’aria
AirBnb effect
Trovare la storia nei dati
Confronti
Cambiamenti nel tempo
Esplorare le intersezioni
I contrasti tra gruppi
Analizzare i fattori
Outliers
Associazioni, relazioni e la
ricerca della verità
La statistica come storia
Dati inaspettati
Sport e dati (a
pagamento)
Baseball:
Tradizionalmente
statistico
Nuovi dati sulle partite
Data about fans
Il Basket e il monitoraggio
dei giocatori
Calcio: expected goal e
dati a pagamento
Storie di dati sportivi
(pochi) Dati a supporto di una tesi
Chi para meglio in serie a
Gli attaccanti italiani di oggi (e lo scraping)
Calcio e soldi
Approfodire (2)
Dati più umani
Raccontare a non esperti
digitali
Humanize data
Andare in profondità,
censire dati manualmente
non è reato :)
Dati per
campagne
Quando i dati sono una
call to action
Questionario open
migration
Recap:
Tipi di output
Text story
Static visualization
Video visualization
Interactive visualization
Multimedia story
News application
News
applications
Stipendi francesi
L’uso di una ricerca per
diverse pubblicazioni:
TorinoMulte
Come è andata con
Obama?
Scrollytelling with data:
esempi
Raccolta dati
Arricchimento, pulizia e
integrazione
Esplorazione,
comprensione e analisi
Produzione della storia
Produzione grafica e
pubblicazione
Il flusso di lavoro al Guardian
Data journalism teams & skills
Unicorno: singolo innovatore tuttofore
-> prototipi, semplici visualizzazioni, buon impatto
Duo: solitamente una figura più tradizionale e una più tecnica o statistica
-> investigative dj, great stories
Small team: Reporter, designer, programmatore(2) , statistico
-> great and innovative dj
Grandi team: Distribuiti, molti informatici
-> big data stories
MOOC (Coursera,
JournalismCourses,
Learno, ...)
Read, Read, Read!
(it’s f…..g good journalism)
Imparare gli strumenti e
costruire la propria toolbox
Frequentare community
open data e hackathons
(andare a SOD17 in Sicilia)

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Dati per comunicare

  • 1. Open data e data science Dati per capire e comunicare 18 Febbraio 2017 Ghirardi Nicola Master “Web communication e social media”
  • 2. Fact checking “There are three kinds of lies: lies, damned lies and statistics” Dati sbagliati Errori di visualizzazione dati (e la scelta della visualizzazione: 1 , 2 ) Fallacie logiche e statistiche Eccessiva generalizzazione (la trappola delle medie e confronti inadeguati)
  • 3. Ipotesi nella raccolta dati: quantificazione Nel linguaggio Nella raccolta dati
  • 4. Ipotesi nella raccolta dati: bias nascosti Campionatura casuale ● Area specifica ● Autoselezione ● Passaparola (la bolla) Altri bias ● Autocertificazione ● Domande che inducono una risposta Campionatura, margine d’errore e livello di confidenza (e grandezza campione)
  • 5. Il caso: p-value Indica la probabilità che i dati derivati da un campione siano dovuti al caso, e non rappresentino quindi il tutto p<0,05 (5% prob) è preso come convenzione per escludere il caso E’ applicato a modelli predittivi (e.g. trend di crescita o correlazione): con p<0,05 allora la relazione è statisticamente significativa (non umanamente, economicamente o scientificamente) NON indica la probabilità che la correlazione o la causalità esistano NON indica l’errore nei dati
  • 6. Correlation is not causation Spurious correlation A/B testing (aka esperimento controllato) ● Ricerca scientifica ● Applicazioni
  • 7. Alla ricerca della verità Sarebbe successo altrimenti? Confrontare realtà simili
  • 8. Alla ricerca della verità (modelli di causalità)
  • 9. Verità per eliminazione Stimare le cause attraverso ● Parlare con esperti ● Chiedere agli interessati ● Studiare il dominio ● Caffe ● Studiare il lavoro di altri ● Cambiare idea ● Discutere con altri Test ● Con dati ● Nella strada Iterare
  • 10. Dati non strutturati : analisi del testo Le emozioni dei discorsi inaugurali Strumenti: analisi, visualizzazione, coding Digital humanities
  • 11. Internet of people Dati dai social network Monitoraggio dei trend (e.g. reputation management) Grafi sociali: un esperimento Strumenti per l’analisi: gephi, python, graph db (e.g. neo4j) Strumenti per la raccolta: APIs, google sheet plugins, fornitori di dati (e.g. Gnip) Esempio di trasformazione dati
  • 12. Le emozioni dei discorsi inaugurali Live fact checking Finanziamenti La rincorsa di trump Lo sprint di Trump Storie di dati, politici e parole
  • 13. Usare ricerche esistenti Statistica di base (confronti, classifiche,.. ) Riassunto di ricerche Il contesto Prendere spunto dalle ricerche esistenti
  • 14. Dal globale al locale Giustizia nel mondo Innovazione Qualità dell’aria AirBnb effect
  • 15. Trovare la storia nei dati Confronti Cambiamenti nel tempo Esplorare le intersezioni I contrasti tra gruppi Analizzare i fattori Outliers Associazioni, relazioni e la ricerca della verità La statistica come storia Dati inaspettati
  • 16. Sport e dati (a pagamento) Baseball: Tradizionalmente statistico Nuovi dati sulle partite Data about fans Il Basket e il monitoraggio dei giocatori Calcio: expected goal e dati a pagamento
  • 17. Storie di dati sportivi (pochi) Dati a supporto di una tesi Chi para meglio in serie a Gli attaccanti italiani di oggi (e lo scraping) Calcio e soldi Approfodire (2)
  • 18. Dati più umani Raccontare a non esperti digitali Humanize data Andare in profondità, censire dati manualmente non è reato :)
  • 19. Dati per campagne Quando i dati sono una call to action Questionario open migration
  • 20. Recap: Tipi di output Text story Static visualization Video visualization Interactive visualization Multimedia story News application
  • 21. News applications Stipendi francesi L’uso di una ricerca per diverse pubblicazioni: TorinoMulte Come è andata con Obama? Scrollytelling with data: esempi
  • 22. Raccolta dati Arricchimento, pulizia e integrazione Esplorazione, comprensione e analisi Produzione della storia Produzione grafica e pubblicazione Il flusso di lavoro al Guardian
  • 23. Data journalism teams & skills Unicorno: singolo innovatore tuttofore -> prototipi, semplici visualizzazioni, buon impatto Duo: solitamente una figura più tradizionale e una più tecnica o statistica -> investigative dj, great stories Small team: Reporter, designer, programmatore(2) , statistico -> great and innovative dj Grandi team: Distribuiti, molti informatici -> big data stories
  • 24. MOOC (Coursera, JournalismCourses, Learno, ...) Read, Read, Read! (it’s f…..g good journalism) Imparare gli strumenti e costruire la propria toolbox Frequentare community open data e hackathons (andare a SOD17 in Sicilia)