2. Taustaa
- Tilastokeskus tuottaa lukuisia hintaindeksejä ja –tilastoja
– Esimerkiksi Kuluttajahintaindeksi, Rakennuskustannusindeksi,
Palvelujen tuottajahintaindeksi, Kansainvälinen hintavertailu
(http://tilastokeskus.fi/til/hin.htm)
- Hintatilastoilla on laajaa ja monimuotoista tiedonkeruuta
– Tiedonantajakyselyt
– Tiedonkeruu myymälöissä
– Muu tiedonkeruu
• Internet tietolähteenä
- Tiedonkeruu on verrattain hidasta ja kallista
– Rajoitetaan poimittavien tietojen määrää (otokset)
– Tietolähteiden käyttö riippuu paitsi saatavasta hyödystä, myös
vaaditusta vaivasta ja kustannuksista
17.11.2015 KE/Tuukka Saranpää2
3. Uudet tietolähteet
- Sähköisten järjestelmien yleistyminen, tiedon laadun
paraneminen, kaupankäynnin siirtyminen verkkoon sekä laajojen
datamassojen käsittelyn tehostuminen voivat mahdollistaa
uudenlaisten tietolähteiden hyödyntämisen
- Potentiaalisia tietolähteitä
– Yritysten omat tietojärjestelmät
– Internetissä oleva tieto
• Verkkokaupat
• Hinnastot
• Julkiset/Suojatut järjestelmät
– Big Data?
- Jotkin tietolähteet saattavat edellyttää muutoksia lainsäädäntöön
17.11.2015 KE/Tuukka Saranpää3
4. Projekti: Kuluttajahintojen web-keruu
- Ulkopuolinen rahoitus, EU Grants
- Marraskuu 2014 – Maaliskuu 2016
- Tavoitteena hintatilastojen tiedonkeruun modernisointi
– Tehtävä selvittää ja testata uusien tietolähteiden
hyödyntämistä
– Projektin päättyessä päätös tuotantoon ottamisesta,
lisäselvityksen tarpeesta tai tietolähteen hylkäämisestä
- EU:lla kolme rahoituksen osa-aluetta
– Projektissa näistä kaksi
• Web scraping (tiedon haravointi verkosta)
• Scanner data (kassapääteaineistot)
- Yhteys Tilastokeskuksen Big Data –työhön
17.11.2015 KE/Tuukka Saranpää4
5. Web scraping
- Testataan haravointia erilaisilta verkkosivuilta
– Verkkokaupat, joissa useita tuoteryhmiteltyjä hyödykkeitä
hinta- ja tuotetietoineen
– Verkkokaupat, joissa hinta määräytyy ostajan valitsemien
parametrien perusteella
– Verkkosivustot, joissa hinnasto on esim. html-, pdf- tai xls-
muodossa
- Web scraper on tällä hetkellä vielä kehitysvaiheessa
- Varhaisia havaintoja:
– Verkkokaupoissa on merkittäviä eroja sekä tietorakenteissa
että saatavilla olevissa tiedoissa
– Verkkokauppaympäristö on epävakaa, kauppojen rakenteet
muuttuvat, eikä web scraperin toiminnasta muutosten jälkeen
ole takuuta
17.11.2015 KE/Tuukka Saranpää5
6. Kassapääteaineistot (1)
- Yksikkötasolla kassapääteaineistoilla tarkoitetaan aineistoa, jossa
on jokainen ostotapahtuma (”kassapäätteen piippaus”) tietoineen
– Esim. tuotekoodi, myyntihinta, veroton hinta, myymälä, aika
– Mahdollisesti ostajaan liittyviä tietoja, esim. kanta-asiakkuus,
maksutapa
– Suurilla toimijoilla järjestelmään tallentuu valtava määrä
ostotapahtumia päivässä > Big Data
- Tilastotuotannossa yksittäisiin ostotapahtumiin pääseminen ei ole
välttämätöntä
– Aggregointi tuotteittain yli ajan esimerkiksi päivä-, viikko- tai
kuukausitasolle
– Mahdolliset muut aggregoinnit, esim. alueet/ketjut
– Merkittävästi suppeampi havaintomäärä
17.11.2015 KE/Tuukka Saranpää6
7. Kassapääteaineistot (2)
- Projektiin on saatu tiedonluovuttajilta testiaineistoja, joilla
kassapääteaineistojen hyödynnettävyyttä voidaan kokeilla
- Varhaisia havaintoja:
– Aineistot ovat laadukkaita, sillä ne ovat tiedonluovuttajilla
laajassa omassa käytössä, esim. seuranta, analyysi, kehitys
– Hyödyt: aineiston kattavuus, keruun vaivattomuus
– Haasteita:
• Luokittelu tuotekooditasolta tuoteryhmätasolle
– Toimittajilla omat luokittelunsa, TK:lla omat
– Tunnisteen pysyvyys ja ainutlaatuisuus?
• Merkittävien hinnanmuutosten ymmärtäminen
– Laajassa datassa ”outojen” havaintojen määrä kasvaa
• Tilastotuotanto riippuvainen aineiston toimituksesta
17.11.2015 KE/Tuukka Saranpää7