Screen scrappaus Datan hankinta ja käyttö 28.09.11 Johan Laitinen
Lähtökohta <ul><li>Optimaalinen lähtökohta: Mitä dataa halutaan? </li></ul><ul><ul><li>Data avointa </li></ul></ul><ul><li...
Prosessi <ul><li>Kolme vaihetta </li></ul><ul><ul><li>Hankinta (import) </li></ul></ul><ul><ul><ul><li>Aineiston tallentam...
Datan hankinta <ul><li>Saako dataa valmiina jostain? </li></ul><ul><ul><li>Valmiit rajapinnat </li></ul></ul><ul><ul><li>T...
Datan prosessointi <ul><li>Mitä dataa haetaan? </li></ul><ul><li>Missä muodossa data on? </li></ul><ul><ul><li>Rakenteelli...
Case: Tampereen kaupunki 28.09.11 Johan Laitinen
Case: Tampereen kaupunki <ul><li>wget --convert-links --post-data='kirjaamo=&text=Keskusareena&pvm1=&pvm2=&ktu=&djn=&dvu=’...
Case Tampereen kaupunki <ul><li>Otetaan mielenkiintoiset datat talteen </li></ul>28.09.11 Johan Laitinen
Case Tampereen kaupunki 28.09.11 http://demo.avanto.in Johan Laitinen
Työkaluja <ul><li>Datan hankinta </li></ul><ul><ul><li>Wget / curl </li></ul></ul><ul><ul><li>php </li></ul></ul><ul><ul><...
Hyvä muistaa <ul><li>Skriptien tulisi kuormittaa palvelimia mahdollisimman vähän (vältetään tahaton DoS) </li></ul><ul><li...
<ul><li>Kysymyksiä tai kommentteja? </li></ul><ul><li>Kiitoksia mielenkiinnosta! </li></ul>28.09.11 Johan Laitinen
Upcoming SlideShare
Loading in...5
×

Datajournalismi scrappaus

1,478

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,478
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
1
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Datajournalismi scrappaus

  1. 1. Screen scrappaus Datan hankinta ja käyttö 28.09.11 Johan Laitinen
  2. 2. Lähtökohta <ul><li>Optimaalinen lähtökohta: Mitä dataa halutaan? </li></ul><ul><ul><li>Data avointa </li></ul></ul><ul><li>Yleinen lähtökohta: Mitä dataa saadaan? </li></ul><ul><ul><li>Osa datasta avointa </li></ul></ul><ul><ul><li>Omat scrappaukset </li></ul></ul>28.09.11 Johan Laitinen
  3. 3. Prosessi <ul><li>Kolme vaihetta </li></ul><ul><ul><li>Hankinta (import) </li></ul></ul><ul><ul><ul><li>Aineiston tallentaminen </li></ul></ul></ul><ul><ul><li>Käsittely (processing) </li></ul></ul><ul><ul><ul><li>Aineiston muokkaaminen käytettävään muotoon </li></ul></ul></ul><ul><ul><ul><li>Datan louhinta </li></ul></ul></ul><ul><ul><li>Tulos (output) </li></ul></ul><ul><ul><ul><li>Valikoidun datan tallennus </li></ul></ul></ul>28.09.11 Johan Laitinen
  4. 4. Datan hankinta <ul><li>Saako dataa valmiina jostain? </li></ul><ul><ul><li>Valmiit rajapinnat </li></ul></ul><ul><ul><li>Tehtävä itse - Eduskunnan äänestysdata – biomi </li></ul></ul><ul><ul><ul><li>http://biomi.org/eduskunta/ eduskunta.html </li></ul></ul></ul><ul><ul><li>Kuka takaa toimivuuden? </li></ul></ul><ul><li>Onko datan tulo jatkuvaa? </li></ul><ul><ul><li>Vuosittainen tilinpäätös vs. Kunnan päätöksentekodata vs. blogitekstit </li></ul></ul>28.09.11 Johan Laitinen
  5. 5. Datan prosessointi <ul><li>Mitä dataa haetaan? </li></ul><ul><li>Missä muodossa data on? </li></ul><ul><ul><li>Rakenteellinen / rakenteeton </li></ul></ul><ul><li>Mihin muotoon data pitäisi saada? </li></ul><ul><ul><li>XML, JSON, CSV? </li></ul></ul>28.09.11 Johan Laitinen
  6. 6. Case: Tampereen kaupunki 28.09.11 Johan Laitinen
  7. 7. Case: Tampereen kaupunki <ul><li>wget --convert-links --post-data='kirjaamo=&text=Keskusareena&pvm1=&pvm2=&ktu=&djn=&dvu=’ http ://193.111.93.11/ktwebbin/dbisa.dll/ktwebscr/epj_asil2. htm </li></ul><ul><li>Curlissa ei –convert-links –vipua --> liitteet hankala saada </li></ul>28.09.11 Johan Laitinen
  8. 8. Case Tampereen kaupunki <ul><li>Otetaan mielenkiintoiset datat talteen </li></ul>28.09.11 Johan Laitinen
  9. 9. Case Tampereen kaupunki 28.09.11 http://demo.avanto.in Johan Laitinen
  10. 10. Työkaluja <ul><li>Datan hankinta </li></ul><ul><ul><li>Wget / curl </li></ul></ul><ul><ul><li>php </li></ul></ul><ul><ul><li>ScraperWiki </li></ul></ul><ul><li>Datan käsittely </li></ul><ul><ul><li>Antiword – pdf/doc  txt </li></ul></ul><ul><ul><li>Regex – datan etsintään, valikointiin </li></ul></ul><ul><ul><li>http://kex.venko.net/perusta / - sanojen perusmuotoistaminen (Tuomas Salo) </li></ul></ul><ul><li>Datan varastointi </li></ul><ul><ul><li>Node.js </li></ul></ul><ul><li>Prosessin automatisointi / cron </li></ul>28.09.11 Johan Laitinen
  11. 11. Hyvä muistaa <ul><li>Skriptien tulisi kuormittaa palvelimia mahdollisimman vähän (vältetään tahaton DoS) </li></ul><ul><li>Miten skripti hoitaa ongelmatilanteet? </li></ul><ul><li>Merkistö: välilyönnit, viivat, ääkköset voivat aiheuttaa ongelmia </li></ul><ul><li>Verifioidaan data scrappaukseen jälkeen! </li></ul><ul><ul><li>Etenkin jatkuvassa ajossa olevien skriptien tapauksessa </li></ul></ul>28.09.11 Johan Laitinen
  12. 12. <ul><li>Kysymyksiä tai kommentteja? </li></ul><ul><li>Kiitoksia mielenkiinnosta! </li></ul>28.09.11 Johan Laitinen
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×