Datajournalistiek

2,096 views

Published on

ppt voor ccj over datajournalistiek 14/2/2012

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,096
On SlideShare
0
From Embeds
0
Number of Embeds
1,109
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Datajournalistiek

  1. 1. Datajournalistiek Peter Verweij D3-Media Utrecht 2012
  2. 2. Programma: data bevragen en data verklaren <ul><li>19.00 verschillende stappen in een onderzoek; </li></ul><ul><li>19.30 Data verzamelen; werken met spreadsheets; basis en gevorderden scraping; </li></ul><ul><li>20.00 pauze en bespreking van de opdrachten </li></ul><ul><li>20.30 data analyse: data downloaden voor basis en data cleaning voor gevorderden; verbanden en kruistabellen </li></ul><ul><li>21.00 discussie eigen data sets </li></ul><ul><li>(21.30 primaire data; verzamelen: enquete en twitter api) </li></ul>
  3. 3. Meer data meer ideeen voor verhalen Gemeente: paspoort/ID; WOZ; grafrechten; Linjesregen Kamerleden HOI Huizen verkoop Wijken en pvvstemmers Verkeersongevallen/ kruispunten Europese aanbestedingen Criminaliteit Kinderarbeid Olieprijzen Voedselen grondstoffen Gezondheid/ overgewicht
  4. 5. Van idee naar onderzoek Kun je aan de data komen? Wat wil je precies weten; van idee naar hypothese? Met welk doel zijn die data verzameld en past dat bij doelstelling van journalistieke onderzoek Niet: data doorploegen en hopen op een goed idee; ‘ hypotheses are nets, only he who casts will catch’ motto KRP-Novalis)
  5. 6. Empirische cyclus
  6. 7. Onderzoek Plaats van statistiek in het onderzoek; Hoe kijk je naar het onderzoek: hypothese; Meten: probleemstelling operationalisering en meetniveau's; Meetniveau's en statistische analyse; veel gebruikte maten en cijfers; beschrijvend en verklarend; Steekproeven, fouten marges; fouten eerste en tweede orde; Datamatrix en data formaten; opschonen van data http://www.robertniles.com/stats/
  7. 8. Secundaire data verzamelen <ul><li>Downloaden uit databases en importeren </li></ul><ul><ul><ul><ul><li>Google public data en wolfram alpha </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Nationaal: cbs , rivm verkeersongevallen </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Lokaal: cbs buurten , utrecht lokaal </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Internationaal: Wereldbank ; Eurostat </li></ul></ul></ul></ul><ul><li>Scraping : </li></ul><ul><ul><ul><ul><li>Van html/xml naar xls of csv format </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Copy past </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Google docs; excel import html </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Python of Ruby scripts for scraping </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Scraperwiki </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Voorbeeld Reuters </li></ul></ul></ul></ul></ul><ul><li>Pdf via cometdocs </li></ul>
  8. 9. Secundaire data 2 <ul><li>Data cleaning </li></ul><ul><ul><ul><ul><li>Excel zoek en vervang </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Google refine </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Data converter en mr. people </li></ul></ul></ul></ul>
  9. 10. Opdracht 1 <ul><li>Datajournalism is teamwork : schrijvers, onderzoekers/methodologen, programmeurs, designers; NYT hack day </li></ul><ul><li>Linux versus Windows :DNR </li></ul><ul><li>Verschil tussen een database en spreadsheets </li></ul><ul><li>Verschillende programma's: open office versus microsoft office; mysql </li></ul><ul><li>Elementaire bewerkingen in excel: omzet coca cola </li></ul><ul><li>Voortgezet: zoek data voor burgemeesters </li></ul>
  10. 11. Onderzoek 2 <ul><li>Operationalisering: </li></ul><ul><ul><ul><li>theorie naar empirie; </li></ul></ul></ul><ul><ul><ul><li>populariteit(theorie) naar stemmen(variabele) naar vraag/item </li></ul></ul></ul><ul><li>Operationalisering en meetniveau's </li></ul><ul><ul><ul><li>Nominaal </li></ul></ul></ul><ul><ul><ul><li>Ordinaal </li></ul></ul></ul><ul><ul><ul><li>Interval </li></ul></ul></ul><ul><ul><ul><li>Ratio </li></ul></ul></ul><ul><li>Operationalisering is meten van de variabele, maar dus ook de statistiek </li></ul>
  11. 12. Onderzoek 3 <ul><li>Statistiek: </li></ul><ul><ul><li>Data analyse met </li></ul></ul><ul><ul><ul><ul><li>Excel via statistische functies </li></ul></ul></ul></ul><ul><ul><ul><ul><li>SPSS of R program </li></ul></ul></ul></ul><ul><ul><li>Overzicht maten en toetsen naar meetniveau (en parametervrije toetsen) </li></ul></ul><ul><ul><li>Populatie, steekproef en foutenmarges </li></ul></ul><ul><ul><li>Presentatie van data: </li></ul></ul><ul><ul><ul><ul><li>Als getal </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Als grafiek; soorten grafieken </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Als kaart, data koppelen aan kaart; geocoding </li></ul></ul></ul></ul>
  12. 13. Opdracht 2 <ul><li>Voor basis: </li></ul><ul><ul><li>%-stijging criminaliteitscijfers per politieregio 2005 en 2009 </li></ul></ul><ul><li>Voortgezet: </li></ul><ul><ul><li>Maak een data analyse van bestand burgemeesters in Nederland </li></ul></ul>
  13. 14. Discussie data sets - Wat is originele bron en reden voor verzameling? - Wat is jouw reden; wat wil je weten; wat is je hypothese? - Wat is format van de datamatrix voor het onderzoeken van de hypothese? Moeten de data worden opgeschoond? - Met welke berekeningen-verschillende maten en toetsen- wil je de hypothese toetsen? - Hoe vertaal je deze technisch statistische analyse in een journalistiek verhaal?
  14. 15. Primaire data verzamelen <ul><li>Guardian project over de rellen in London </li></ul><ul><ul><li>Philip Meyer en precision journalism </li></ul></ul><ul><li>Digitale enquetes </li></ul><ul><ul><li>Survey Monkey </li></ul></ul><ul><ul><li>Google forms </li></ul></ul><ul><li>Data direct downloaden via API's </li></ul><ul><ul><li>Programming: API en Twitter </li></ul></ul><ul><ul><li>Twitter data downloaden met NodeXL </li></ul></ul>
  15. 16. Meer....literatuur David Herzog Data Journalism tools Report Data Journalism op DNR

×