Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Datajournalismi scrappaus

1,684 views

Published on

  • Be the first to comment

Datajournalismi scrappaus

  1. 1. Screen scrappaus Datan hankinta ja käyttö 28.09.11 Johan Laitinen
  2. 2. Lähtökohta <ul><li>Optimaalinen lähtökohta: Mitä dataa halutaan? </li></ul><ul><ul><li>Data avointa </li></ul></ul><ul><li>Yleinen lähtökohta: Mitä dataa saadaan? </li></ul><ul><ul><li>Osa datasta avointa </li></ul></ul><ul><ul><li>Omat scrappaukset </li></ul></ul>28.09.11 Johan Laitinen
  3. 3. Prosessi <ul><li>Kolme vaihetta </li></ul><ul><ul><li>Hankinta (import) </li></ul></ul><ul><ul><ul><li>Aineiston tallentaminen </li></ul></ul></ul><ul><ul><li>Käsittely (processing) </li></ul></ul><ul><ul><ul><li>Aineiston muokkaaminen käytettävään muotoon </li></ul></ul></ul><ul><ul><ul><li>Datan louhinta </li></ul></ul></ul><ul><ul><li>Tulos (output) </li></ul></ul><ul><ul><ul><li>Valikoidun datan tallennus </li></ul></ul></ul>28.09.11 Johan Laitinen
  4. 4. Datan hankinta <ul><li>Saako dataa valmiina jostain? </li></ul><ul><ul><li>Valmiit rajapinnat </li></ul></ul><ul><ul><li>Tehtävä itse - Eduskunnan äänestysdata – biomi </li></ul></ul><ul><ul><ul><li>http://biomi.org/eduskunta/ eduskunta.html </li></ul></ul></ul><ul><ul><li>Kuka takaa toimivuuden? </li></ul></ul><ul><li>Onko datan tulo jatkuvaa? </li></ul><ul><ul><li>Vuosittainen tilinpäätös vs. Kunnan päätöksentekodata vs. blogitekstit </li></ul></ul>28.09.11 Johan Laitinen
  5. 5. Datan prosessointi <ul><li>Mitä dataa haetaan? </li></ul><ul><li>Missä muodossa data on? </li></ul><ul><ul><li>Rakenteellinen / rakenteeton </li></ul></ul><ul><li>Mihin muotoon data pitäisi saada? </li></ul><ul><ul><li>XML, JSON, CSV? </li></ul></ul>28.09.11 Johan Laitinen
  6. 6. Case: Tampereen kaupunki 28.09.11 Johan Laitinen
  7. 7. Case: Tampereen kaupunki <ul><li>wget --convert-links --post-data='kirjaamo=&text=Keskusareena&pvm1=&pvm2=&ktu=&djn=&dvu=’ http ://193.111.93.11/ktwebbin/dbisa.dll/ktwebscr/epj_asil2. htm </li></ul><ul><li>Curlissa ei –convert-links –vipua --> liitteet hankala saada </li></ul>28.09.11 Johan Laitinen
  8. 8. Case Tampereen kaupunki <ul><li>Otetaan mielenkiintoiset datat talteen </li></ul>28.09.11 Johan Laitinen
  9. 9. Case Tampereen kaupunki 28.09.11 http://demo.avanto.in Johan Laitinen
  10. 10. Työkaluja <ul><li>Datan hankinta </li></ul><ul><ul><li>Wget / curl </li></ul></ul><ul><ul><li>php </li></ul></ul><ul><ul><li>ScraperWiki </li></ul></ul><ul><li>Datan käsittely </li></ul><ul><ul><li>Antiword – pdf/doc  txt </li></ul></ul><ul><ul><li>Regex – datan etsintään, valikointiin </li></ul></ul><ul><ul><li>http://kex.venko.net/perusta / - sanojen perusmuotoistaminen (Tuomas Salo) </li></ul></ul><ul><li>Datan varastointi </li></ul><ul><ul><li>Node.js </li></ul></ul><ul><li>Prosessin automatisointi / cron </li></ul>28.09.11 Johan Laitinen
  11. 11. Hyvä muistaa <ul><li>Skriptien tulisi kuormittaa palvelimia mahdollisimman vähän (vältetään tahaton DoS) </li></ul><ul><li>Miten skripti hoitaa ongelmatilanteet? </li></ul><ul><li>Merkistö: välilyönnit, viivat, ääkköset voivat aiheuttaa ongelmia </li></ul><ul><li>Verifioidaan data scrappaukseen jälkeen! </li></ul><ul><ul><li>Etenkin jatkuvassa ajossa olevien skriptien tapauksessa </li></ul></ul>28.09.11 Johan Laitinen
  12. 12. <ul><li>Kysymyksiä tai kommentteja? </li></ul><ul><li>Kiitoksia mielenkiinnosta! </li></ul>28.09.11 Johan Laitinen

×