Datan siivousta tehokkaasti – Google RefineAntti Poikola
Tutoriaali http://datajournalismi.fi/tutoriaaleja/
Haaste: Mitkä ovat yleisimpiä ammatteja eduskuntavaaliehdokkaiden joukossa?
Vaaditut ohjelmat / työkalut:
Google Refine -ohjelma asennettuna
Sisältö tiivistetysti:
- Miten siivotaan Oikeusministerion ehdokasdatan sarake, jossa on ehdokkaiden itse ilmoittama arvo/ammatti/asema -tieto?
- Datan tuominen Google refineen
- Facet text facet
- Samankaltaisten klusterointi ja yhdistäminen
- Edit cells / split multi-valued cells
- Datan vieminen Refinesta exceliin
Tutoriaalissa käytettävä data:
Lataa data osoitteesta http://192.49.229.35/E2011/s/ehd_listat/kokomaa.htm
Suora linkki taulukkoon on http://192.49.229.35/E2011/s/ehd_listat/e2011ehd.xls
Ks. http://datajournalismi.fi/tutoriaaleja/#A
Lyhyt johdattelu datajournalismiin: mitä uutta on datajournalismissa, millainen työprosessi siihen liittyy ja muutamia esimerkkejä. Luennon sisältöä päivitetään säännöllisesti ja sovelletaan eri kohderyhmille, täällä julkaistu versio on yleinen "peruspaketti".
Datan siivousta tehokkaasti – Google RefineAntti Poikola
Tutoriaali http://datajournalismi.fi/tutoriaaleja/
Haaste: Mitkä ovat yleisimpiä ammatteja eduskuntavaaliehdokkaiden joukossa?
Vaaditut ohjelmat / työkalut:
Google Refine -ohjelma asennettuna
Sisältö tiivistetysti:
- Miten siivotaan Oikeusministerion ehdokasdatan sarake, jossa on ehdokkaiden itse ilmoittama arvo/ammatti/asema -tieto?
- Datan tuominen Google refineen
- Facet text facet
- Samankaltaisten klusterointi ja yhdistäminen
- Edit cells / split multi-valued cells
- Datan vieminen Refinesta exceliin
Tutoriaalissa käytettävä data:
Lataa data osoitteesta http://192.49.229.35/E2011/s/ehd_listat/kokomaa.htm
Suora linkki taulukkoon on http://192.49.229.35/E2011/s/ehd_listat/e2011ehd.xls
Ks. http://datajournalismi.fi/tutoriaaleja/#A
Lyhyt johdattelu datajournalismiin: mitä uutta on datajournalismissa, millainen työprosessi siihen liittyy ja muutamia esimerkkejä. Luennon sisältöä päivitetään säännöllisesti ja sovelletaan eri kohderyhmille, täällä julkaistu versio on yleinen "peruspaketti".
Datakeittiö -metafora, jonka avulla ideoidaan avoimen yhdyskuntadatan tulevaisuuden sovelluksia Aalto Designfactorylla 26.9.2011 työpajassa: http://www.mahdollista.fi/nettikansan-tapahtumat/osallistuva/
20121211 open cities_open_organizationsAntti Poikola
This document discusses open cities and open organizations. It describes three projects involving crowdsourcing for cycling infrastructure, participatory urban planning, and an open knowledge festival. It also lists publications on open data and social media for citizen participation. Examples are provided of transparency, participation and collaboration in open cities. Open government data is defined and its social and economic benefits outlined. Examples are given of city data and civic applications using city data. Internet tools for collaboration are discussed, including motivations for participation and different participation methods like meetings, commenting, and mapping applications.
More Related Content
Similar to 20121011 taulukkolaskenta perustyokalu_datan_kasittelyyn
Datakeittiö -metafora, jonka avulla ideoidaan avoimen yhdyskuntadatan tulevaisuuden sovelluksia Aalto Designfactorylla 26.9.2011 työpajassa: http://www.mahdollista.fi/nettikansan-tapahtumat/osallistuva/
20121211 open cities_open_organizationsAntti Poikola
This document discusses open cities and open organizations. It describes three projects involving crowdsourcing for cycling infrastructure, participatory urban planning, and an open knowledge festival. It also lists publications on open data and social media for citizen participation. Examples are provided of transparency, participation and collaboration in open cities. Open government data is defined and its social and economic benefits outlined. Examples are given of city data and civic applications using city data. Internet tools for collaboration are discussed, including motivations for participation and different participation methods like meetings, commenting, and mapping applications.
Jane Jacobs: 4 edellytystä elävälle kaupunkialueelle.
1. alueella pitää olla useampi kuin yksi ja mielellään useampi, kuin kaksi pääasiallista käyttötarkoitusta
esim. asuminen + kaupallinen + työpaikat tai toimistot + iltaharrastukset. Tämä takaa sen, että alueella on tasaisesti ihmisvirtaa eri vuorokauden aikoihin, koska tasainen ihmisvirta on se, mikä luo mahdollisia kaupallisille palveluille. Jos on esim valtava toimistoalue, niin siellä ei pysy hengissä mikään muu, kuin teolliseen tuotantotahtiin pystyvä lounasravintola, joka on tyhjillään suurimman osan päivästä. Jos taas on palkkä asuinalue, niin se kannattelee ehkä pitseriaa. Näiden ensisijaisten käyttötarkoitusten yhdistäminen on kaupallisten palveluntuottajien näkökulmasta enemmän kuin 1+1, sillä se takaa ihmisvirtaa eri kellonaikoihin.
Keskustassa esim. kulttuuri- harraste, vapaa-aika, viihdetilat tuovat paljon kaivattua vilinää ilta-aikaan. Olennaista on, että eri toimintoja ei väkisin pyritä erottelemaan toisistaan, luomalla lisää Ylistönmäkiä työpaikoiksi, Seppälänkankaita kaupalle ja Lutakkoja asumiselle. Terveempää olisi, että kaikilla alueilla olisi sekaisin kaikenlaisia toimintoja.
Kolme muuta Jacobsin pointtia ovat:
2. Riittävän lyhyet korttelipituudet (oikopolkuja kävelijöille)
3. Eri ikäisiä ja kuntoisia rakennuksia, sillä halvemmille ja huonokuntoisemmille rakennuksille on myös kysyntää, joka tuottaa alueelle monipuolisuutta
4. riittävä ihmistiheys (ei vain asukastiheys, vaan tiheys ihmisiä, jotka tulevat alueelle eri syistä)
Avoin data ja avoin kaupunkiorganisaatio, Antti Poikola, HUB Jyväskylä
Avoimen datan avulla kaupunkilaisille tarjottavia digitaalisia palveluita voidaan kehittää kenen tahansa toimesta joustavasti ja tarvelähtöisesti. Mitä tämä tarkoittaa osallistumiselle ja demokratialle? Voisiko myös valmistelu- ja päätöksentekoprosessi olla avoin ja vuorovaikutteinen? Esimerkkejä avoimen datan ja avointen toimintamallien vaikutuksesta asioiden valmisteluun, päätöksentekoon ja yhteistuotantoon kunnissa ja kaupungeissa.
Ks. http://datajournalismi.fi/tutoriaaleja/#B
Neljä datajournalistille tärkeää tapaa datan hankkimiseen – avoin data, tietopyynnöt, ruudunraaputus ja joukkoistaminen.
1. Taulukkolaskenta
Perustyökalu datan käsittelyyn - 2008 aj 2012 kunnallisvaalien
ehdokasdatojen yhdistäminen
Antti Poikola – Otavan Opisto
Kuva: 1854 Broad Street cholera outbreak (wikipedia)
Attribution-Share Alike 1.0 Finland
2. Haaste: Kuinka paljon nyt
ehdolla olevat ehdokkaat
Haaste: Millainen on ehdokkaiden poliittinen historia, kuka sai paljonkin ääniä aiemmissa vaaleissa?
saivat 2008 vaaleissa?
Attribution-Share Alike 1.0 Finland
4. Datan avaaminen Exceliin
Tallenna alkuperäinen CSV –tiedosto Excel-muotoon
Attribution-Share Alike 1.0 Finland
5. Työstövaiheet Excelissä 1.
1. Välilehden nimeksi ”Alkuperäinen 2008”
2. Tee välilehdestä kopio ja nimeä se ”Muokattu 2008”
Attribution-Share Alike 1.0 Finland
12. Suomalainen datajournalistien verkosto
Yhdessä oppien ja toisia auttaen
Datajournalismisivusto: http://datajournalismi.fi/
Datavaalit sivu: http://www.datavaalit.fi/
Twitterissä: @datajournalismi ja #datajournalismi
Facebookissa: www.facebook.com/datajournalismi
Teemo Tebestin blogi: datajournalismi.blogspot.com
Jens Finnäsin blogi: dataist.wordpress.com
HsOpen blogi: blogit.hs.fi/hsnext
Attribution-Share Alike 1.0 Finland
Editor's Notes
2. Haaste: Kuinka paljon nyt ehdolla olevat ehdokkaat saivat 2008 vaaleissa?
3. Vuosien 2008 ja 2012 ehdokasdataMene osoitteeseen http://fi.thedatahub.org/group/datavaalitEtsi sieltä vuoden 2008 ja 2012 ehdokastiedot CSV muodossaTallenna molemmat tiedostot koneellesiHuom. vuoden 2008 tiedosto sisältää myös kaikki vaalitulokset äänestysalueen tarkkuudella, mutta tähän tutoriaaliin riittää kuntakohtainen data, jonka lataustiedosto on huomattavasti pienempiSuorat latauslinkit:https://github.com/avoindata/datavaalit-ehdokas-ja-tulostiedot/raw/master/2008/municipal_elections_candidates_2008_finland.csv (122M)https://github.com/avoindata/datavaalit-ehdokas-ja-tulostiedot/raw/master/2012/municipal_elections_candidates_2012_finland.csv (8M)
5. Työstövaiheet Excelissä 1.Ennen, kuin alkaa muokkaamaan dataa on hyvä käytäntö ottaa kopio alkuperäisestä datasta, sen voi jättää samaan Excel-tiedostoon omalle välilehdelleenAnna ensimmäisen välilehden nimeksi ”Alkuperäinen 2008”Tee välilehdestä kopio ja nimeä se ”Muokattu 2008”
6. Työstövaiheet Excelissä 2.Mene ”Muokattu 2008” välilehdelle ja tee seuraavat työstövaiheet:1. Lisää tyhjiä sarakkeita ehdokassarakkeen ja äänestysaluesarakkeen väliin (2 kpl.)2. Valitse sarake A kokonaan ja klikkaa ”text to columns” -työkalua, Laita sieltä ”/” merkki erottimeksi
7. Vuoden 2012 EhdokasdataHae vuoden 2012 ehdokasdata osoitteesta http://fi.thedatahub.org/dataset/municipal-elections-candidates-in-finland-2012Avaa CSV –tiedosto ExcelissäKlikkaa oikeassa data-alueen vasemmassa ylänurkassa hiiren oikealla näppäimellä ja kopioi koko data leikepöydälleMenen aikaisempaan Excel –tiedostoon (jossa on jo vuoden 2008 data) tyhjälle välilehdelle ensimmäiseen soluun ja liitä (ctrl+v) data sinneNimeä välilehti ”Alkuperäinen 2012” ja tee siitä kopio ”Muokattu 2012”Lisää ”Muokattu 2012” kaksi uutta saraketta ja nimeä ne: Äänimäärä 2008 ja Ehdokas
8. Concatenate –funktioTavoitteena on saada ”Muokattu 2012” välilehden ehdokas –sarakkeeseen vastaava Sukunimi Etunimi –muotoinen tieto, joka löytyy ”Muokattu 2008” välilehden ehdokassarakkeesta, jotta näitä kahta voitaisiin vertailla.Mene ehdokassarakkeen ensimmäiseen soluunKlikkaa Funktiotyökalun kuvaketta fxValitse kategoriasta tekstifunktiot CONCATENATE –niminen funktio ja klikkaa OKValitse Text1 –kenttä ja etsi taulukosta Sukunimisarakkeen ensimmäinen soluValitse Text2 –kenttä ja laita siihen lainausmerkeissä oleva välilyönti ” ” (tämä tekee Etunimen ja sukunimen väliin välilyönnin)Valitse Text3 –kenttä ja etsi taulukosta Etunimisarakkeen ensimmäinen soluKlikkaa OK
9. TäyttökahvaKaksoisklikkaa ehdokassarakkeen ensimmäisen solun alakulmassa olevaa mustaa pistettä (niin sanottu täyttökahva)Edellisessä vaiheessa tehty Concatenate –funktio kopioituu kaikkii alempiin soluihin
10. Vlookup –funktioTavoitteena on saada ”Muokattu 2012” välilehden Äänimäärä 2008 –sarakkeeseen kopioitua niiden ehdokkaiden, jotka olivat myös 2008 vaaleissa ehdolla edellisten vaalien äänimäärät, tämä tietohan löytyy ”Muokattu 2008” välilehdeltä.Mene Äänimäärä 2008 -sarakkeen ensimmäiseen soluunKlikkaa Funktiotyökalun kuvaketta fx- Valitse kategoriasta ”Lookup & Reference” VLOOKUP –niminen funktio ja klikkaa OK- Valitse Lookup_value –kenttä ja etsi taulukosta Ehdokassarakkeen ensimmäinen solu (tämän nimistä vuonna 2012 ehdolla olevaa ihmistä etsimme siis vuoden 2008 ehdokastiedoista)- Valitse Table_array –kenttä, mene ”Muokattu 2008 välilehdelle ja maallaa koko data –alue (tähän on olemassa näppärät näppäinkomennot), klikkaa vielä F4 –näppäintä, jolloin valittu alue lukittuu (funktioon ilmestyy $-merkkejä)- Valitse Col_index_num –kenttä ja laita siihen 5 (”Muokattu 2008” välilehdellä ehdokkaiden saama äänimäärä löytyy järjestyksessä viidennestä sarakkeesta)- Valitse Range_lookup –kenttä ja laita siihen 0 (tämä tarkoittaa, että nimen on oltava kahdessa taulukossa täsmälleen sama, arvolla 1 funktio löytäisi aakkosissa lähimpänä olevan ehdokkaan)- Klikkaa OK- Tee edellisestä kohdasta tuttu täyttökahvakikka
11. Taulukon järjestäminen vuoden 2008 äänimäärän perusteellaValitse ”Sort” –työkaluKlikkaa ruutuun ”My data has headers”Valitse Sort by Äänimäärä 2008Klikkaa OKTämä ei ole mikään grande finale tälle tutoriaalille, mielenkiintoisia asioita saa, jos Vlookupilla hakee esim. ehdokkaiden puolueita edellisisä vaaleissa ja vertaa nykypuolueeseen, onko ollut loikkareita? Tai myöskin ottamalla mukaan 2004 äänimäärät, niin voi katsoa, ketkä ovat olleet nosteessa ja ketkä suurimpia pudottajia.