Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

  • 802 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
802
On Slideshare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Eurostatin avoimet aineistot
  • 2. Eurostatin (EU:n tilastovirasto) avoimet aineistotn  Ladattavissa osoitteesta: http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/bulk_downloadn  Sisältää n. 1 100 taulukkoa (table) ja n. 4 300 laajempaa tietokantakuutiota (dataset). l  Lähes kaikissa näistä on mukana aluemuuttuja "geo" (useimmiten maat n. 35 ja joissain tapauksissa NUTS2-alueet n. 300). l  Lähes kaikissa näistä on mukana myös aikamuuttuja "time" (joko vuodet tai kuukaudet). l  Näiden lisäksi taulukoissa on 0-2 muuta muuttujaa. Tietokantakuutioissa saattaa olla enemmänkin ulottuvuuksia.n  Aineistot ladattavissa zipattuina joko tsv, dft tai sdmx –muodossa.n  Tiedot päivittyvät kahdesti päivässä.
  • 3. Lataussivustolta löytyy itse data-aineistojen lisäksi myös:n  Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomuotojen rakenteet.n  Tekstitiedostomuotoinen "table of contents" -listaus ladattavissa olevista tiedostoista: l  Sisältää aineistojen perusmetatiedot (hakemistorakenteen, tiedostonimet sekä taulukoiden otsikot, päivityspäivämäärät ja aikasarjojen pituudet).n  Vaihtoehtoinen xml-muotoinen "table of contents" -listaus: l  Sisältää edellisen lisäksi sisältää myös taulukoissa käytetyt yksiköt, lyhyet kuvaukset, linkit laajempaan metatietoon sekä taulukoiden latauslinkit.n  Erilliset käännöstiedostot (dic).
  • 4. n  Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain muuttujien nimet sekä muuttujien arvojen koodit.n  Erillisestä käännöshakemistosta löytyy kutakin muuttujan nimeä vastaava käännöstiedosto, josta löytyy kyseisen muuttujan arvokoodeja vastaavat selväkieliset nimet.n  Taulukkolistaukset ja käännöstiedostot ovat ladattavissa kolmella eri kielellä (englanti, ranska ja saksa).
  • 5. Taulukot jaettu 9 pääaihealueeseen:n  General and regional statisticsn  Economy and financen  Population and social conditionsn  Industry, trade and servicesn  Agriculture, forestry and fisheriesn  International traden  Transportn  Environment and energyn  Science and technology
  • 6. Ja lisäksi erillisiin poikkitilastollisiin teemoihin:n  Macroeconomic Imbalance Procedure Scoreboardn  Short-term indicatorsn  Europe 2020 indicatorsn  Sustainable Development indicatorsn  Globalisation indicatorsn  Structural (Lisbon) indicatorsn  Employment and Social Policy Indicators-> Taulukot voivat olla useammassa paikassa hakemistorakenteen eri osissa.
  • 7. Tilastokeskuksen malli Eurostatin aineistojen käytöstä -> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen asiakkaita: l  Yhtenäinen käyttöliittymä (PX-Web) l  Yhtenäinen aihealuejako (SVT –aihealueet) l  Suomen kieli l  Pc-Axis –tiedostomuoto -> Luo meille myös mahdollisuuden käyttää näitä aineistoja helposti (jopa automaattisesti) muussa taulukko-, tilastokuvio- ja karttatuotannossa sekä mahdollisuuden linkittää näitä aineistoja aihealuetasolla muuhun sivustoon.
  • 8. Luotiin skripti, joka: l  Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta. l  Konvertoi ne Pc-Axis -tiedostoiksi tarvittavine metatietoineen ja lähettää ne PX-Web -tietokantaan oikeisiin SVT-aihealueisiin.Joitain vastaan tulleita ongelmia:Eurostatin taulukkokoelma elää koko ajan: l  Vanhoja taulukoita poistuu ja uusia tulee tilalle l  Sama taulukko kahdella eri nimellä eri paikoissa l  Otsikot vaihtuvat l  Puutteelliset käännöstiedostot l  Ajoittain zip-tiedostot rikki l  Listaustiedoston tai jopa datatiedostojen rakenne muuttunut
  • 9. n  Suomenkielisen version ylläpidon resurssiongelma.n  Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.-> Suositeltavaa käyttää suoraan alkuperäistä lähdettä (Eurostat).Mahdollista toki käyttää myös Tilastokeskuksen konvertoimia Pc- Axis-muotoisia taulukoita, jotka löytyvät sivuiltamme:http://www.stat.fi/org/lainsaadanto/avoin_data.html
  • 10. n  Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen tilastotiedon sivuilta PX-Web -tietokannasta (Eurostatin avaintaulukot): http://tilastokeskus.fi/tup/kvportaali/n  Sivuilta löytyy myös joukko näiden taulukoiden pohjalta luotuja automaattisesti päivittyviä tilastokuvioita (Kansainväliset vertailukuviot).n  Sivuilta löytyy myös linkkejä muihin keskeisiin kansainvälisten järjestöjen tilastotietokantoihin. Näistä laajimmat (ja poikkitilastolliset) ovat: l  OECD Statistics (OECD:n tilastoportaali) l  UNdata (YK:n tilastotietokantojen portaali) l  World Bank (Maailmanpankin tietokannat) l  UNECE Database (YK:n Euroopan talouskomission tietokanta)
  • 11. Myös muita keskeisiä aihealueittaisia tietokantoja esim.: l  ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja työvoimatilastot) l  FAOSTAT (YK:n elintarvike- ja maatalousjärjestön tietokannat)Joitain Tilastokeskuksen intressejä ja näkökulmia avoimen datan sovellusten suhteen: l  Tietojen automaattinen haku myös muista kv-tietokannoista l  Interaktiiviset sovellukset -> Käyttäjillä mahdollisuus itse tutkia aineistoja omista lähtökohdistaan l  Mahdollisuus esittää asioita uudella tavalla uusista näkökulmista l  Keskeinen edellytys palveluiden helppo ja tehokas päivitettävyys l  Tehokkaat datan sisään- ja uloslukurutiinit l  Suuret datamäärät