Stats4Finland-työpaja:Tilastokeskuksen tilastodatan      tiedostomuodoista                              veli-matti.jantune...
A statistician is someone who doesn´t know what he´s                     talking about -            and makes you feel it´...
Perustietoja Tilastokeskuksenvapaasti saatavien tietojen jakelumuodoista   Johdatus tilastotiedon esitystapoihin ja kuuti...
Tilastotaulukon esitystavoista      ja kuutiomuodosta                 veli-matti.jantunen@stat.fi   4
Tilastot esitetään useimmiten taulukkoina   Taulukoissa esitetään useiden muuttujien (luokitusten)    yhdistelmiä       ...
Julkaisutaulukko Mielessä paperijulkaisu Tavoitteena optimoida tilankäyttö                                  veli-matti.j...
Peräkkäislista Yleisehkö tiedon siirtotapa (tietokantalistaukset) Tietoyhdistelmät, joille on todellisia havaintoja     ...
Kuutio matemaatikon silmin   Moniulotteinen taulukko (sääntiö, matriisi) koostuu    1-n ortogonaalisesta dimensiosta   I...
Kuutio tilastoihmisen silmin   Kuutio koostuu 1-n muuttujasta (luokituksesta, särmästä)        kaikki muuttujat ovat sam...
Esimerkki: Yritysten toimipaikat -kuutio           Kunta        Vuosi          Toimiala                                   ...
PC-Axis-maailma         veli-matti.jantunen@stat.fi   11
PC-Axis-ohjelmaperheestä   PC-Axis: avoin tiedostomuoto        kuutiomuotoisen tilastotaulukon kuvaus metatietoineen tek...
PX-Web maailmalla                    veli-matti.jantunen@stat.fi   13
PX-Edit   Tilastokeskuksessa kehitetty asiantuntijoille    tarkoitettu veloitukseton PC-Axis-taulukoiden muokkaustyökalu ...
PC-Axis- ja XML-julkaisutaulukoiden teko.px                                         PX-Edit                               ...
PC-Axis-tiedostoista            veli-matti.jantunen@stat.fi   16
PC-Axis-tiedosto (.px)   px-tiedostomuoto on avoin ASCII-standardi kuutiomuotoisen    tilastotaulukon esittämiseen metati...
veli-matti.jantunen@stat.fi   18
Avainsanalausekkeista   Avainsanalausekkeiden sisältö suljetaan lainausmerkein (")        paitsi numeeriset ja loogiset ...
Rakenteesta Avainsanojen tallennusjärjestyksen tulee olla PX-Webin  standardin mukainen Osa avainsanoista on pakollisia ...
Kuinka monta alkiota on taulukossa?   Lue muuttujat avainsanoista STUB ja HEADING    (tässä järjestyksessä)     STUB="Ikä...
Dataosasta   Dataosan alkioiden jonojärjestys vastaa taulukon muuttujien    arvojen järjestystä        alkioita tulee ol...
veli-matti.jantunen@stat.fi   23
Tilastokeskuksesta saatavat px-tiedostot   Lista:     pxweb2.stat.fi/database/StatFin/StatFin_rap.csv   A prikos: kehitt...
Rakenteisen taulukon periaatteet          (CSV, xls)                  veli-matti.jantunen@stat.fi   25
Vain tarpeelliset taulukkotiedot   Taulukon otsikko on ensimmäisessä solussa (kulmasolussa)   Sarakemuuttujat        mu...
Esimerkkitaulukko (hierarkkinen otsikointi)Avioliiton solmineet 1975-2001                                           tauluk...
Yksimuuttujaisen taulukon perusrakenneväestö alueittainalue           data-kunnat           sarake                        ...
Kaksimuuttujaisten taulukoiden perusrakenteetväestö alueittain ja vuosittain   väestö alueittain ja vuosittainalue       v...
Kolmimuuttujaisten taulukoiden perusrakenteetväestö alueittain, vuosittain ja ikäryhmittäin   väestö alueittain, vuosittai...
veli-matti.jantunen@stat.fi   31
Tilastokeskuksesta saatavat csv-tiedostot   Lista:    pxweb2.stat.fi/database/StatFin/StatFin_rap_csv.csv    (päivitetään...
Tulevaisuus: XML          veli-matti.jantunen@stat.fi   33
Common Structure of Statistical Information (CoSSI)   www.stat.fi/cossi   Tilastotiedon yleinen malli        kuvaa kaik...
CoSSI   The point of departure in CoSSI was an (infological) analysis of the    information being considered   The concl...
XML Based Dissemination   Modules:      Document metadata      Statistical metadata      Processing metadata      Pub...
CoSSI Implementation   Modular DTD system        Document Type Definitions        Use of standards             CALS, X...
Tilastokeskuksesta saatavat xml/xdf-tiedostot   Lista:    pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv    (päivite...
The sign of a truly educated man is to be deeply moved by statistics                                                      ...
Upcoming SlideShare
Loading in …5
×

Stats4 finland 28.8.2012, veli matti jantunen

1,218 views
1,123 views

Published on

1 Comment
0 Likes
Statistics
Notes
  • Video ja muu aineisto: http://apps4finland.fi/2012/09/05/veli-matti-jantunen-tilastokeskus-tilastokeskuksen-tilastodatan-tiedostomuodot/
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

No Downloads
Views
Total views
1,218
On SlideShare
0
From Embeds
0
Number of Embeds
625
Actions
Shares
0
Downloads
3
Comments
1
Likes
0
Embeds 0
No embeds

No notes for slide

Stats4 finland 28.8.2012, veli matti jantunen

  1. 1. Stats4Finland-työpaja:Tilastokeskuksen tilastodatan tiedostomuodoista veli-matti.jantunen@stat.fi
  2. 2. A statistician is someone who doesn´t know what he´s talking about - and makes you feel it´s your fault. unknown veli-matti.jantunen@stat.fi 2
  3. 3. Perustietoja Tilastokeskuksenvapaasti saatavien tietojen jakelumuodoista Johdatus tilastotiedon esitystapoihin ja kuutiomuotoon PC-Axis-maailma ja –tiedostot (.px)  hieman yleistietoa  tiedostojen käsittelyvihjeitä Rakenteisista taulukoista  Excel ja csv XML  tulevaisuuden jakeluratkaisu? veli-matti.jantunen@stat.fi 3
  4. 4. Tilastotaulukon esitystavoista ja kuutiomuodosta veli-matti.jantunen@stat.fi 4
  5. 5. Tilastot esitetään useimmiten taulukkoina Taulukoissa esitetään useiden muuttujien (luokitusten) yhdistelmiä  Vuosittainen väkiluku kunnittain, sukupuolittain ja ikäryhmittäin  tulisi käyttää vain vakioituja, uniikkeja luokituksia Pelkkä numeerinen tieto ei riitä, vaan tarvitaan (usein runsaasti) metadataa (tietoa tiedosta) taulukon yhteyteen Kolme esitysmallia = kolme ajattelutapaa  julkaisutaulukko  peräkkäislista  kuutiomuoto veli-matti.jantunen@stat.fi 5
  6. 6. Julkaisutaulukko Mielessä paperijulkaisu Tavoitteena optimoida tilankäyttö veli-matti.jantunen@stat.fi 6
  7. 7. Peräkkäislista Yleisehkö tiedon siirtotapa (tietokantalistaukset) Tietoyhdistelmät, joille on todellisia havaintoja veli-matti.jantunen@stat.fi 7
  8. 8. Kuutio matemaatikon silmin Moniulotteinen taulukko (sääntiö, matriisi) koostuu 1-n ortogonaalisesta dimensiosta Indeksit nimetään dimensioittain Taulukon alkiot muodostuvat dimensioiden karteesisen tulon perusteella eli jokaisen alkion sijainti on määrätty veli-matti.jantunen@stat.fi 8
  9. 9. Kuutio tilastoihmisen silmin Kuutio koostuu 1-n muuttujasta (luokituksesta, särmästä)  kaikki muuttujat ovat samanarvoisia Muuttujat koostuvat puolestaan nimetyistä arvoista (luokat, nimikkeet) Puhtaassa kuutiomuodossa  jokainen muuttujien arvojen yhdistelmä on mukana  jokaisen alkion sijainti on määrätty veli-matti.jantunen@stat.fi 9
  10. 10. Esimerkki: Yritysten toimipaikat -kuutio Kunta Vuosi Toimiala Muuttujat 2000 2001 2002 ... Alahärmä A Maa-, riista- ja metsätalous Alajärvi Alastaro B Kalatalous... Muuttujan arvot C Mineraalien kaivu ... tietoalkio: Alastaron kalatalousyritykset vuonna 2002 veli-matti.jantunen@stat.fi 10
  11. 11. PC-Axis-maailma veli-matti.jantunen@stat.fi 11
  12. 12. PC-Axis-ohjelmaperheestä PC-Axis: avoin tiedostomuoto  kuutiomuotoisen tilastotaulukon kuvaus metatietoineen tekstitiedostona  1990-luvulta  myös: veloitukseton loppukäyttäjän ohjelma px-taulukon asetteluun, tilastolaskentaan ja tiedostomuunnoksiin PX-Web: px-taulukkotietokannan jakelupalvelin  käyttäjälle selkeä ja yksinkertainen (”tilastoihmisiltä tilastoihmisille”)  ylläpitäjälle räätälöinti ja hallinta helppoa PC-Axis ja PX-Web ovat SCB:n tuotteita  tuotekehitystä ohjaa käyttäjistä koostuva PC-Axis Reference Group veli-matti.jantunen@stat.fi 12
  13. 13. PX-Web maailmalla veli-matti.jantunen@stat.fi 13
  14. 14. PX-Edit Tilastokeskuksessa kehitetty asiantuntijoille tarkoitettu veloitukseton PC-Axis-taulukoiden muokkaustyökalu  px-tiedostojen syntaksitarkistus ja optimointi  px- ja xml-taulukoiden tuottaminen sekalaisista lähteistä  metatietoköyhien taulukoiden rikastus Kansainvälinen menestys  osa Tilastokeskuksen panosta px-tuoteperheen kehitykseen  osa SCB:n PC-Axis-koulutuspakettia (PC-Axis, PX-Web ja PX-Edit)  osa FAOn CountryStat-pakettia Koodattu DyalogAPL:llä (www.tryapl.org) veli-matti.jantunen@stat.fi 14
  15. 15. PC-Axis- ja XML-julkaisutaulukoiden teko.px PX-Edit Julkistus StatFin .px manuaalinen tai eräajokäyttö .px .px Web-ajastin: syntaksitarkistus PX-Web PC-Axis- metatietorikastus sivuston taulukot ja XML-konversio StatFinin + StatFin- ajastukset arkisto .xml/CALS .px .xls *) Julkaisutuotanto WWW FastWeb-XML ARBORTEXT Jakeluvarasto HTML Excel ja muut XML/DB .xml/ SAS Julkaisun .xml eXist CALS PDF SuperSTAR toimittaminen ja metatiedon Automaat-Tilastosovellukset lisäys tinen RSS, PDF- ja HTML- txt...*) määrämuotoinen, muunnosrakenteinen .xls, .txt tai .csv veli-matti.jantunen@stat.fi 15
  16. 16. PC-Axis-tiedostoista veli-matti.jantunen@stat.fi 16
  17. 17. PC-Axis-tiedosto (.px) px-tiedostomuoto on avoin ASCII-standardi kuutiomuotoisen tilastotaulukon esittämiseen metatietoineen  ihmissilmin ymmärrettävissä Tiedot esitetään avainsanalausekkeina, joita on neljä perustyyppiä:  TAULUKKOAVAINSANA=…;  MUUTTUJA-AVAINSANA("Muuttuja")=…;  ARVOAVAINSANA("Muuttuja","arvo")=…;  SOLUAVAINSANA("arvo1","arvo2",…)=…; Lauseke päättyy aina puolipisteeseen (;) veli-matti.jantunen@stat.fi 17
  18. 18. veli-matti.jantunen@stat.fi 18
  19. 19. Avainsanalausekkeista Avainsanalausekkeiden sisältö suljetaan lainausmerkein (")  paitsi numeeriset ja loogiset (YES/NO) arvot Pitkä lauseke rivitetään (katkaistaan osiin) lainausmerkein "Tämä on pitkä teksti," " joka on katkaistu (huomaa välilyönti)"; Listan alkiot erotetaan pilkuilla VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset"; Monikielisten taulukoiden lisäkielen kielikoodi liitetään avainsanan perään hakasulkeisiin  VALUES[en]("Gender")="Total","Males","Females"; veli-matti.jantunen@stat.fi 19
  20. 20. Rakenteesta Avainsanojen tallennusjärjestyksen tulee olla PX-Webin standardin mukainen Osa avainsanoista on pakollisia (MATRIX, SUBJECT-AREA, …) Solukohtaisten avainsanojen syntaksi riippuu muuttujien järjestyksestä  Taulukon muuttujat ovat kahdessa avainsanassa: STUB ja HEADING Dataosa (DATA= ) on aina viimeinen Tiedostomuodon käsikirja: www.stat.fi/tup/pcaxis/lataus_tyokalut.html veli-matti.jantunen@stat.fi 20
  21. 21. Kuinka monta alkiota on taulukossa? Lue muuttujat avainsanoista STUB ja HEADING (tässä järjestyksessä) STUB="Ikä","Vuosi"; HEADING="Sukupuoli","Siviilisääty"; Lue muuttujittain VALUES-avainsanoista arvojen määrä VALUES("Ikä")="Yhteensä","0","1","2","3","4",… (101) VALUES("Vuosi")="1990","1991","1992",… (21) VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset"; (3) VALUES("Siviilisääty")="Yhteensä","Naimaton",… (8)101 x 21 x 3 x 8 = 50904 tietoalkiota veli-matti.jantunen@stat.fi 21
  22. 22. Dataosasta Dataosan alkioiden jonojärjestys vastaa taulukon muuttujien arvojen järjestystä  alkioita tulee olla juuri oikea määrä Alkiot erotetaan toisistaan välilyönnein Alkio on joko luku, piste- tai viivakoodi  lukujen desimaalierotin on piste, ei tuhaterottimia, negatiiviset luvut osoitetaan miinusmerkillä 0 1 2.3 -4.567  pistekoodeilla osoitetaan puuttuvaa tms. tietoa, viivakoodi on ’tarkka nolla’ "." ".." "..." "...." "....." "......" "-" veli-matti.jantunen@stat.fi 22
  23. 23. veli-matti.jantunen@stat.fi 23
  24. 24. Tilastokeskuksesta saatavat px-tiedostot Lista: pxweb2.stat.fi/database/StatFin/StatFin_rap.csv A prikos: kehitteillä oleva avoin data –sivusto stat.fi/org/lainsaadanto/avoin_data.html veli-matti.jantunen@stat.fi 24
  25. 25. Rakenteisen taulukon periaatteet (CSV, xls) veli-matti.jantunen@stat.fi 25
  26. 26. Vain tarpeelliset taulukkotiedot Taulukon otsikko on ensimmäisessä solussa (kulmasolussa) Sarakemuuttujat  muuttujannimet reunasarakkeella allekkain  vastaavat arvotekstit (luokitukset) muuttujariveillä Rivimuuttujat  muuttujannimet yhdellä rivillä vierekkäin  vastaavat arvotekstit (luokitukset) muuttujasarakkeilla Data-alkio on aina rivi- ja sarakearvojensa leikkauspisteessä veli-matti.jantunen@stat.fi 26
  27. 27. Esimerkkitaulukko (hierarkkinen otsikointi)Avioliiton solmineet 1975-2001 taulukko-otsikkoVuosi 1975 … sarakemuuttujatIkä 15-19 20-24 25-29 30-34 …Kunta Kunta Sukupuoli000 Koko maa miehet 1352 14793 10367 2503 … naiset 5693 15794 6704 1583 … yhteensä 7045 30587 17071 4086 …004 Alahärmä miehet 1 11 9 0 … naiset 5 17 5 1 … yhteensä 6 28 14 1 …005 Alajärvi miehet 2 24 15 0 … naiset 19 14 8 1 … yhteensä 21 38 23 1 …006 Alastaro miehet 2 10 14 3 … naiset 4 17 6 1 … yhteensä 6 27 20 4 …… … … … … … … …rivimuuttujat dataosa veli-matti.jantunen@stat.fi 27
  28. 28. Yksimuuttujaisen taulukon perusrakenneväestö alueittainalue data-kunnat sarake veli-matti.jantunen@stat.fi 28
  29. 29. Kaksimuuttujaisten taulukoiden perusrakenteetväestö alueittain ja vuosittain väestö alueittain ja vuosittainalue vuosi vuosi vuodet alue data-kunnat vuodet sarake kunnat datataulukko (matriisi) veli-matti.jantunen@stat.fi 29
  30. 30. Kolmimuuttujaisten taulukoiden perusrakenteetväestö alueittain, vuosittain ja ikäryhmittäin väestö alueittain, vuosittain ja ikäryhmittäinalue vuosi ikäryhmä3 ikäryhmä3 iät alue vuosi data-kunnat vuodet iät kunnat vuodet datataulukko sarakeväestö alueittain, vuosittain ja ikäryhmittäinvuosi vuodetikäryhmä iätaluekunnat datataulukko veli-matti.jantunen@stat.fi 30
  31. 31. veli-matti.jantunen@stat.fi 31
  32. 32. Tilastokeskuksesta saatavat csv-tiedostot Lista: pxweb2.stat.fi/database/StatFin/StatFin_rap_csv.csv (päivitetään satunnaisesti) Lyhyt kuvaus: www.stat.fi/tup/pcaxis/csv_tiedostokuvaus.pdf veli-matti.jantunen@stat.fi 32
  33. 33. Tulevaisuus: XML veli-matti.jantunen@stat.fi 33
  34. 34. Common Structure of Statistical Information (CoSSI) www.stat.fi/cossi Tilastotiedon yleinen malli  kuvaa kaikkiin tilastoihin liittyvät tiedot Mallissa märitellään tietosisällöt ja niiden keskinäinen hierarkia  mallinnuskielenä XML-DTD Kolme muotoa  XDF isoille taulukoille, dataosa kuin px-tiedostoissa  Cals julkaisutaulukoille (~html-taulukot)  Keys harvamatriiseille veli-matti.jantunen@stat.fi 34
  35. 35. CoSSI The point of departure in CoSSI was an (infological) analysis of the information being considered The conclusion from the analysis was that although in practice the definition of statistical information has varied according to a given situation and application, in reality statistical information has a certain simplifiable and acceptable universal structure CoSSI describes the general structure that is not dependent on the situation of the statistical information presented in differing formats  CoSSI defines the structures of statistical data, metadata and publications veli-matti.jantunen@stat.fi 35
  36. 36. XML Based Dissemination Modules:  Document metadata  Statistical metadata  Processing metadata  Publications CoSSI (www.stat.fi/cossi)  Data  matrices (XDF)  tables (CALS)  sparse matrix (KEYS) veli-matti.jantunen@stat.fi 36
  37. 37. CoSSI Implementation Modular DTD system  Document Type Definitions  Use of standards  CALS, XDF, Dublin-Core...  Statistical matrix (statinfo_xdf.dtd)  statmeta.dtd, docmeta.dtd, xdf.dtd  Statistical table (statinfo_cals.dtd)  statmeta.dtd, docmeta.dtd, cals.dtd  Publications and documents (publication.dtd)  docmeta.dtd, statmeta.dtd, statinfo_cals.dtd, figure.dtd... XML  One XML-file  data and metadata  Multi-lingual documents veli-matti.jantunen@stat.fi 37
  38. 38. Tilastokeskuksesta saatavat xml/xdf-tiedostot Lista: pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv (päivitetään satunnaisesti) Kuvaus: www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html veli-matti.jantunen@stat.fi 38
  39. 39. The sign of a truly educated man is to be deeply moved by statistics George Bernard Shaw veli-matti.jantunen@stat.fi 39

×