Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Eurostatin avoimet aineistot
Eurostatin (EU:n tilastovirasto) avoimet aineistotn    Ladattavissa osoitteesta:      http://epp.eurostat.ec.europa.eu/po...
Lataussivustolta löytyy itse data-aineistojen lisäksi myös:n  Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomu...
n    Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain      muuttujien nimet sekä muuttujien arvojen koo...
Taulukot jaettu 9 pääaihealueeseen:n  General and regional statisticsn  Economy and financen  Population and social con...
Ja lisäksi erillisiin poikkitilastollisiin teemoihin:n  Macroeconomic Imbalance Procedure Scoreboardn  Short-term indica...
Tilastokeskuksen malli Eurostatin aineistojen käytöstä -> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen   as...
Luotiin skripti, joka:  l  Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta.  l  Konvertoi ne Pc-Axi...
n  Suomenkielisen version ylläpidon resurssiongelma.n  Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.-> Suos...
n  Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen    tilastotiedon sivuilta PX-Web -tietokannasta (Eurostati...
Myös muita keskeisiä aihealueittaisia tietokantoja esim.:   l  ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja     ...
Upcoming SlideShare
Loading in …5
×

Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

975 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

  1. 1. Eurostatin avoimet aineistot
  2. 2. Eurostatin (EU:n tilastovirasto) avoimet aineistotn  Ladattavissa osoitteesta: http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/bulk_downloadn  Sisältää n. 1 100 taulukkoa (table) ja n. 4 300 laajempaa tietokantakuutiota (dataset). l  Lähes kaikissa näistä on mukana aluemuuttuja "geo" (useimmiten maat n. 35 ja joissain tapauksissa NUTS2-alueet n. 300). l  Lähes kaikissa näistä on mukana myös aikamuuttuja "time" (joko vuodet tai kuukaudet). l  Näiden lisäksi taulukoissa on 0-2 muuta muuttujaa. Tietokantakuutioissa saattaa olla enemmänkin ulottuvuuksia.n  Aineistot ladattavissa zipattuina joko tsv, dft tai sdmx –muodossa.n  Tiedot päivittyvät kahdesti päivässä.
  3. 3. Lataussivustolta löytyy itse data-aineistojen lisäksi myös:n  Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomuotojen rakenteet.n  Tekstitiedostomuotoinen "table of contents" -listaus ladattavissa olevista tiedostoista: l  Sisältää aineistojen perusmetatiedot (hakemistorakenteen, tiedostonimet sekä taulukoiden otsikot, päivityspäivämäärät ja aikasarjojen pituudet).n  Vaihtoehtoinen xml-muotoinen "table of contents" -listaus: l  Sisältää edellisen lisäksi sisältää myös taulukoissa käytetyt yksiköt, lyhyet kuvaukset, linkit laajempaan metatietoon sekä taulukoiden latauslinkit.n  Erilliset käännöstiedostot (dic).
  4. 4. n  Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain muuttujien nimet sekä muuttujien arvojen koodit.n  Erillisestä käännöshakemistosta löytyy kutakin muuttujan nimeä vastaava käännöstiedosto, josta löytyy kyseisen muuttujan arvokoodeja vastaavat selväkieliset nimet.n  Taulukkolistaukset ja käännöstiedostot ovat ladattavissa kolmella eri kielellä (englanti, ranska ja saksa).
  5. 5. Taulukot jaettu 9 pääaihealueeseen:n  General and regional statisticsn  Economy and financen  Population and social conditionsn  Industry, trade and servicesn  Agriculture, forestry and fisheriesn  International traden  Transportn  Environment and energyn  Science and technology
  6. 6. Ja lisäksi erillisiin poikkitilastollisiin teemoihin:n  Macroeconomic Imbalance Procedure Scoreboardn  Short-term indicatorsn  Europe 2020 indicatorsn  Sustainable Development indicatorsn  Globalisation indicatorsn  Structural (Lisbon) indicatorsn  Employment and Social Policy Indicators-> Taulukot voivat olla useammassa paikassa hakemistorakenteen eri osissa.
  7. 7. Tilastokeskuksen malli Eurostatin aineistojen käytöstä -> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen asiakkaita: l  Yhtenäinen käyttöliittymä (PX-Web) l  Yhtenäinen aihealuejako (SVT –aihealueet) l  Suomen kieli l  Pc-Axis –tiedostomuoto -> Luo meille myös mahdollisuuden käyttää näitä aineistoja helposti (jopa automaattisesti) muussa taulukko-, tilastokuvio- ja karttatuotannossa sekä mahdollisuuden linkittää näitä aineistoja aihealuetasolla muuhun sivustoon.
  8. 8. Luotiin skripti, joka: l  Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta. l  Konvertoi ne Pc-Axis -tiedostoiksi tarvittavine metatietoineen ja lähettää ne PX-Web -tietokantaan oikeisiin SVT-aihealueisiin.Joitain vastaan tulleita ongelmia:Eurostatin taulukkokoelma elää koko ajan: l  Vanhoja taulukoita poistuu ja uusia tulee tilalle l  Sama taulukko kahdella eri nimellä eri paikoissa l  Otsikot vaihtuvat l  Puutteelliset käännöstiedostot l  Ajoittain zip-tiedostot rikki l  Listaustiedoston tai jopa datatiedostojen rakenne muuttunut
  9. 9. n  Suomenkielisen version ylläpidon resurssiongelma.n  Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.-> Suositeltavaa käyttää suoraan alkuperäistä lähdettä (Eurostat).Mahdollista toki käyttää myös Tilastokeskuksen konvertoimia Pc- Axis-muotoisia taulukoita, jotka löytyvät sivuiltamme:http://www.stat.fi/org/lainsaadanto/avoin_data.html
  10. 10. n  Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen tilastotiedon sivuilta PX-Web -tietokannasta (Eurostatin avaintaulukot): http://tilastokeskus.fi/tup/kvportaali/n  Sivuilta löytyy myös joukko näiden taulukoiden pohjalta luotuja automaattisesti päivittyviä tilastokuvioita (Kansainväliset vertailukuviot).n  Sivuilta löytyy myös linkkejä muihin keskeisiin kansainvälisten järjestöjen tilastotietokantoihin. Näistä laajimmat (ja poikkitilastolliset) ovat: l  OECD Statistics (OECD:n tilastoportaali) l  UNdata (YK:n tilastotietokantojen portaali) l  World Bank (Maailmanpankin tietokannat) l  UNECE Database (YK:n Euroopan talouskomission tietokanta)
  11. 11. Myös muita keskeisiä aihealueittaisia tietokantoja esim.: l  ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja työvoimatilastot) l  FAOSTAT (YK:n elintarvike- ja maatalousjärjestön tietokannat)Joitain Tilastokeskuksen intressejä ja näkökulmia avoimen datan sovellusten suhteen: l  Tietojen automaattinen haku myös muista kv-tietokannoista l  Interaktiiviset sovellukset -> Käyttäjillä mahdollisuus itse tutkia aineistoja omista lähtökohdistaan l  Mahdollisuus esittää asioita uudella tavalla uusista näkökulmista l  Keskeinen edellytys palveluiden helppo ja tehokas päivitettävyys l  Tehokkaat datan sisään- ja uloslukurutiinit l  Suuret datamäärät

×