Eurostatin avoimet aineistot
Eurostatin (EU:n tilastovirasto) avoimet aineistotn    Ladattavissa osoitteesta:      http://epp.eurostat.ec.europa.eu/po...
Lataussivustolta löytyy itse data-aineistojen lisäksi myös:n  Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomu...
n    Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain      muuttujien nimet sekä muuttujien arvojen koo...
Taulukot jaettu 9 pääaihealueeseen:n  General and regional statisticsn  Economy and financen  Population and social con...
Ja lisäksi erillisiin poikkitilastollisiin teemoihin:n  Macroeconomic Imbalance Procedure Scoreboardn  Short-term indica...
Tilastokeskuksen malli Eurostatin aineistojen käytöstä -> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen   as...
Luotiin skripti, joka:  l  Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta.  l  Konvertoi ne Pc-Axi...
n  Suomenkielisen version ylläpidon resurssiongelma.n  Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.-> Suos...
n  Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen    tilastotiedon sivuilta PX-Web -tietokannasta (Eurostati...
Myös muita keskeisiä aihealueittaisia tietokantoja esim.:   l  ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja     ...
Upcoming SlideShare
Loading in …5
×

Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

928 views
894 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
928
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

  1. 1. Eurostatin avoimet aineistot
  2. 2. Eurostatin (EU:n tilastovirasto) avoimet aineistotn  Ladattavissa osoitteesta: http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/bulk_downloadn  Sisältää n. 1 100 taulukkoa (table) ja n. 4 300 laajempaa tietokantakuutiota (dataset). l  Lähes kaikissa näistä on mukana aluemuuttuja "geo" (useimmiten maat n. 35 ja joissain tapauksissa NUTS2-alueet n. 300). l  Lähes kaikissa näistä on mukana myös aikamuuttuja "time" (joko vuodet tai kuukaudet). l  Näiden lisäksi taulukoissa on 0-2 muuta muuttujaa. Tietokantakuutioissa saattaa olla enemmänkin ulottuvuuksia.n  Aineistot ladattavissa zipattuina joko tsv, dft tai sdmx –muodossa.n  Tiedot päivittyvät kahdesti päivässä.
  3. 3. Lataussivustolta löytyy itse data-aineistojen lisäksi myös:n  Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomuotojen rakenteet.n  Tekstitiedostomuotoinen "table of contents" -listaus ladattavissa olevista tiedostoista: l  Sisältää aineistojen perusmetatiedot (hakemistorakenteen, tiedostonimet sekä taulukoiden otsikot, päivityspäivämäärät ja aikasarjojen pituudet).n  Vaihtoehtoinen xml-muotoinen "table of contents" -listaus: l  Sisältää edellisen lisäksi sisältää myös taulukoissa käytetyt yksiköt, lyhyet kuvaukset, linkit laajempaan metatietoon sekä taulukoiden latauslinkit.n  Erilliset käännöstiedostot (dic).
  4. 4. n  Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain muuttujien nimet sekä muuttujien arvojen koodit.n  Erillisestä käännöshakemistosta löytyy kutakin muuttujan nimeä vastaava käännöstiedosto, josta löytyy kyseisen muuttujan arvokoodeja vastaavat selväkieliset nimet.n  Taulukkolistaukset ja käännöstiedostot ovat ladattavissa kolmella eri kielellä (englanti, ranska ja saksa).
  5. 5. Taulukot jaettu 9 pääaihealueeseen:n  General and regional statisticsn  Economy and financen  Population and social conditionsn  Industry, trade and servicesn  Agriculture, forestry and fisheriesn  International traden  Transportn  Environment and energyn  Science and technology
  6. 6. Ja lisäksi erillisiin poikkitilastollisiin teemoihin:n  Macroeconomic Imbalance Procedure Scoreboardn  Short-term indicatorsn  Europe 2020 indicatorsn  Sustainable Development indicatorsn  Globalisation indicatorsn  Structural (Lisbon) indicatorsn  Employment and Social Policy Indicators-> Taulukot voivat olla useammassa paikassa hakemistorakenteen eri osissa.
  7. 7. Tilastokeskuksen malli Eurostatin aineistojen käytöstä -> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen asiakkaita: l  Yhtenäinen käyttöliittymä (PX-Web) l  Yhtenäinen aihealuejako (SVT –aihealueet) l  Suomen kieli l  Pc-Axis –tiedostomuoto -> Luo meille myös mahdollisuuden käyttää näitä aineistoja helposti (jopa automaattisesti) muussa taulukko-, tilastokuvio- ja karttatuotannossa sekä mahdollisuuden linkittää näitä aineistoja aihealuetasolla muuhun sivustoon.
  8. 8. Luotiin skripti, joka: l  Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta. l  Konvertoi ne Pc-Axis -tiedostoiksi tarvittavine metatietoineen ja lähettää ne PX-Web -tietokantaan oikeisiin SVT-aihealueisiin.Joitain vastaan tulleita ongelmia:Eurostatin taulukkokoelma elää koko ajan: l  Vanhoja taulukoita poistuu ja uusia tulee tilalle l  Sama taulukko kahdella eri nimellä eri paikoissa l  Otsikot vaihtuvat l  Puutteelliset käännöstiedostot l  Ajoittain zip-tiedostot rikki l  Listaustiedoston tai jopa datatiedostojen rakenne muuttunut
  9. 9. n  Suomenkielisen version ylläpidon resurssiongelma.n  Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.-> Suositeltavaa käyttää suoraan alkuperäistä lähdettä (Eurostat).Mahdollista toki käyttää myös Tilastokeskuksen konvertoimia Pc- Axis-muotoisia taulukoita, jotka löytyvät sivuiltamme:http://www.stat.fi/org/lainsaadanto/avoin_data.html
  10. 10. n  Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen tilastotiedon sivuilta PX-Web -tietokannasta (Eurostatin avaintaulukot): http://tilastokeskus.fi/tup/kvportaali/n  Sivuilta löytyy myös joukko näiden taulukoiden pohjalta luotuja automaattisesti päivittyviä tilastokuvioita (Kansainväliset vertailukuviot).n  Sivuilta löytyy myös linkkejä muihin keskeisiin kansainvälisten järjestöjen tilastotietokantoihin. Näistä laajimmat (ja poikkitilastolliset) ovat: l  OECD Statistics (OECD:n tilastoportaali) l  UNdata (YK:n tilastotietokantojen portaali) l  World Bank (Maailmanpankin tietokannat) l  UNECE Database (YK:n Euroopan talouskomission tietokanta)
  11. 11. Myös muita keskeisiä aihealueittaisia tietokantoja esim.: l  ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja työvoimatilastot) l  FAOSTAT (YK:n elintarvike- ja maatalousjärjestön tietokannat)Joitain Tilastokeskuksen intressejä ja näkökulmia avoimen datan sovellusten suhteen: l  Tietojen automaattinen haku myös muista kv-tietokannoista l  Interaktiiviset sovellukset -> Käyttäjillä mahdollisuus itse tutkia aineistoja omista lähtökohdistaan l  Mahdollisuus esittää asioita uudella tavalla uusista näkökulmista l  Keskeinen edellytys palveluiden helppo ja tehokas päivitettävyys l  Tehokkaat datan sisään- ja uloslukurutiinit l  Suuret datamäärät

×