Tietokulttuuri - Miten data-ohjautunut kulttuuri muodostuu organisaatioon?Mika Aho
Esityksessä tarkastellaan data-ohjautuneen kulttuurin muodostumista organisaatioon neljän näkökulman kautta: tiedon demokratisointi, tiedon hyödyntäminen, mittaaminen sekä osaaminen ja oppiminen.
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Solutive Oy
Prosessipäivien 2015 puheenvuoron "Tiedolla johtaminen ja visuaalinen analytiikka" -esityskalvot. Janne Suomalainen, Solutive Oy. Tableau Silver Partner Suomessa. Alteryx Preferred Partner.
Big datan ja analytiikkamaailman käsitteiden läpikäyminenJari Jussila
Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä,
Moduuli 1: Big Data nyt ja tulevaisuudessa.
Tietokulttuuri - Miten data-ohjautunut kulttuuri muodostuu organisaatioon?Mika Aho
Esityksessä tarkastellaan data-ohjautuneen kulttuurin muodostumista organisaatioon neljän näkökulman kautta: tiedon demokratisointi, tiedon hyödyntäminen, mittaaminen sekä osaaminen ja oppiminen.
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Solutive Oy
Prosessipäivien 2015 puheenvuoron "Tiedolla johtaminen ja visuaalinen analytiikka" -esityskalvot. Janne Suomalainen, Solutive Oy. Tableau Silver Partner Suomessa. Alteryx Preferred Partner.
Big datan ja analytiikkamaailman käsitteiden läpikäyminenJari Jussila
Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä,
Moduuli 1: Big Data nyt ja tulevaisuudessa.
Analytiikka liiketoiminnassa esitys Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä 1.4.2014. Lisätietoa kokonaisuudesta: http://www.bit.ly/ebd2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014ivoriofinland
My Data - Johdatus ihmiskeskeiseen henkilötiedon höydyntämiseen
Selvityksen tekijät: Antti Poikola, Kai Kuikkaniemi, Ossi Kuittinen
http://www.lvm.fi/julkaisu/4420389/my-data-johdatus-ihmiskeskeiseen-henkilotiedon-hyodyntamiseen
Tutustuminen data-analytiikan ja big datan maailmaanJari Jussila
Tutustuminen data-analytiikan ja big datan maailmaan. Valikoitua sisältöä Edutech Data ja analytiikka liiketoiminnan kehittämisessä koulutuspäivästä. Kouluttajina Pasi Hellsten & Jari Jussila. @EdutechTUT #Data4BizTraining
Miten Master Dataa voi käyttää apuna Big Datan hyödyntämisessä? Mitä uutta Big Data voi tarjota Master Datalle?
- Käytä master dataa laadukkaan ja standardoidun tiedon lähteenä
- Sovella master datan hallinnan periaatteita Big Dataan
- Elinkaari
- Omistajuus
- Hyödynnä samoja data quality työkaluja ja periaatteita
- Määritä laatukriteerit
- Estä huonolaatuisen datan pääsy prosessiin
- Käytä samoja työkaluja
- Valitse sellaiset työkalut, jotka pystyvät käsittelemään isoja määriä ei-rakenteista dataa
Tiedonhallinnan ongelmat ja semanttisen teknologian keinotHeimo Hänninen
Suomenkielinen esitys Talentumin sisällönhallinta seminaarista 2013. (Sorry, in Finnish only). Mitkä on kolme suurinta ongelmaa nyt ja mihin semanttinen teknologia voi tuoda apuja. Kolmas (ja kenties pahin) ongelma on mainittu mutta siihen ei teknologia tepsi - kenties aika parantaa tai putoava meteoriitti...
Tiedonhallinnan ongelmat ja semanttisen teknologian keinot - 2013Heimo Hänninen
Peruskamaa älykkään tiedonhallinnan alueelta. Semanttisen teknologian avulla tehty kerros auttaa metatiedon avulla informaation hallintaa ja löydettävyyttä. Uudelleen ladattu vanhaa hyvää? kamaa ;-)
Analytiikka liiketoiminnassa esitys Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä 1.4.2014. Lisätietoa kokonaisuudesta: http://www.bit.ly/ebd2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014ivoriofinland
My Data - Johdatus ihmiskeskeiseen henkilötiedon höydyntämiseen
Selvityksen tekijät: Antti Poikola, Kai Kuikkaniemi, Ossi Kuittinen
http://www.lvm.fi/julkaisu/4420389/my-data-johdatus-ihmiskeskeiseen-henkilotiedon-hyodyntamiseen
Tutustuminen data-analytiikan ja big datan maailmaanJari Jussila
Tutustuminen data-analytiikan ja big datan maailmaan. Valikoitua sisältöä Edutech Data ja analytiikka liiketoiminnan kehittämisessä koulutuspäivästä. Kouluttajina Pasi Hellsten & Jari Jussila. @EdutechTUT #Data4BizTraining
Miten Master Dataa voi käyttää apuna Big Datan hyödyntämisessä? Mitä uutta Big Data voi tarjota Master Datalle?
- Käytä master dataa laadukkaan ja standardoidun tiedon lähteenä
- Sovella master datan hallinnan periaatteita Big Dataan
- Elinkaari
- Omistajuus
- Hyödynnä samoja data quality työkaluja ja periaatteita
- Määritä laatukriteerit
- Estä huonolaatuisen datan pääsy prosessiin
- Käytä samoja työkaluja
- Valitse sellaiset työkalut, jotka pystyvät käsittelemään isoja määriä ei-rakenteista dataa
Tiedonhallinnan ongelmat ja semanttisen teknologian keinotHeimo Hänninen
Suomenkielinen esitys Talentumin sisällönhallinta seminaarista 2013. (Sorry, in Finnish only). Mitkä on kolme suurinta ongelmaa nyt ja mihin semanttinen teknologia voi tuoda apuja. Kolmas (ja kenties pahin) ongelma on mainittu mutta siihen ei teknologia tepsi - kenties aika parantaa tai putoava meteoriitti...
Tiedonhallinnan ongelmat ja semanttisen teknologian keinot - 2013Heimo Hänninen
Peruskamaa älykkään tiedonhallinnan alueelta. Semanttisen teknologian avulla tehty kerros auttaa metatiedon avulla informaation hallintaa ja löydettävyyttä. Uudelleen ladattu vanhaa hyvää? kamaa ;-)
Microsoft Power BI avaa uusia latuja liiketoimintatiedon hallintaan -webinaarin materiaali. Leo Merikallio kertoi webinaarissa Power BI:n mahdollisuuksista, parhaista puolista ja siitä, miksi työkalu kannattaa hankkia.
Microsoft Power BI avaa uusia latuja liiketoimintatiedon hallintaan -webinaarin materiaali. Leo Merikallio kertoi webinaarissa Power BI:n mahdollisuuksista, parhaista puolista ja siitä, miksi työkalu kannattaa hankkia.
Mikä on paljon puhuttu Power BI?
Power BI on Microsoftin tekemä, johtava analytiikka- ja raportointiratkaisu. Se on pilvipohjainen kokoelma bisnesanalytiikkatyökaluja.
-Sisäänrakennettu hallinto & tietoturva & jakaminen
-Tuki laajaan määrään tietolähteitä. Kaikki organisaation tieto mukaan!
-Ad-hoc analyysit omasta datasta käyttäen Azuren tekoälyä
-Tietojen älykäs ja monipuolinen yhdistely
-Elinvoimainen ja intohimoinen käyttäjäkunta
-Takana jatkuva ja iso tuotekehityspanostus
Jne, lue lisää esityksestä!
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Digitalmikkeli
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhteisön mahdollistaminen / Kalle Launiala, ProtonIT
http://datajalostamo.fi/2014/05/keskusteluseminaari/
Miten yritys voi siirtyä käyttämään 100% pilvi-infraa? Antero esittelee yhden ratkaisun miten yritysten koko infra voi pyöriä pilvessä.
Esitetty 22.4.2015 ICT Expossa 2015 Helsinkissä
Pilvipalveluiden perusteita käsittelevä luento, jonka pidin Jyväskylän kirjastolla huhtikuussa 2016.
Lähestyminen laajaan aiheeseen on melko teoreettinen ja pyrkii antamaan yleiskäsityksen tärkeimmistä perusasioista.
Luennolla käsitellään pilvipalveluita yleisesti sekä keskitytään erityisesti palveluiden hyödyntämiseen henkilökohtaisessa käytössä. Esimerkkinä Googlen pilvipalveluympäristö. Tavoitteena on antaa selkeä kuva pilvipalveluiden roolista nykyaikaisessa tietotekniikassa.
Helsingin ekonomien Business Performance Management -seminaarissa 4.10.2012 pidetty esitys tietoperustaisen suorituskyvyn johtamisen kehittymisestä organisaatioissa
My Day as a Business Intelligence ConsultantMika Aho
Mika Aho works as a Business Intelligence and Performance Management consultant. He has helped a company called Glaston implement an enterprise performance management system using Business Intelligence tools like a data warehouse and dashboards. This gave Glaston's management a single, global view of key business metrics and allowed them to better monitor and steer the business. While the initial project was successful, Mika notes there is still work to be done to more fully integrate BI/PM into Glaston's overall management systems. As a consultant, Mika finds the work rewarding as he helps companies use technology solutions to have real business impact.
The Distinction Between Business Intelligence (BI) and Corporate Performance ...Mika Aho
Corporate Performance Management (CPM) is often referred as the next generation of Business Intelligence (BI). Yet, not much academic research exists in the area,
and especially in its relationships to other interrelated concepts such as performance management (PM), performance measurement, and data warehousing.
The presentation discusses the differences and similarities between BI, PM and CPM, and the new advancements that CPM brings
to BI. It also introduces a pyramid that links the interrelated concepts together.
A Capability Maturity Model for Corporate Performance Management, an Empirica...Mika Aho
Presents a Capability Maturity Model (CMM) for assessing the maturity of Corporate Performance Management (CPM) within an organization.
The CPM maturity development process was studied in five case companies where the author participated into CPM projects in a various consultation roles. Through a literature study and the development process in each company, the author has made observations, and has identified the key components, factors, and levels of a CPM maturity.
The findings of this study further extend the CPM research providing a deeper understanding of the process, components, and levels of CPM maturity. The conference paper also provides organizations with an understanding about CPM and its potential value. The model provides a quick way for organizations to gauge where their CPM initiative is now and where it needs to go next.
Holistic database for management of data including operational metricsMika Aho
This presentation describes a holistic database system that stores all Product, Product Development and Production data to a relational database, and how it is integrated to commercial ERP application. The outcome is a system that serves practically every business process in the company. Presentation shows how such system can be implemented using industry standard components and tools, and concentrates on demonstrations that best elaborate the benefits of successful implementation. With several examples it is explained how the system can help customers to dig out the tiniest details related to their processes.
Re-qualifying Delivered Devices and Inventory for a New Product Specification...Mika Aho
The presentation examines an e-Commerce system for re-qualifying delivered products and inventory for new product specifications, and proposes a streamline supply chain model with a mass-customization and a customer-direct capability. The presentation also introduces benefits and foundation for a strategy for producing generic renewable designs.
The empirical research was carried out by means of a case study in a Finnish SME that manufactures laser diodes for international markets. To provide a background, the product customization in a semiconductors industry, system analysis and architecture are addressed. The analysis and conclusions are based on the authors’ experimental findings from this area. The study shows that a mass-customization is beneficial in the semiconductors industry as long as the laser diode designs are properly parameterized and structured in the database.
Raportissa tarkastellaan tietokanta- ja tietovarastointiratkaisujen suhdetta massaräätälöinnin
myynnin konfiguraattoreihin. Tutkimuksen lähtökohtana on, että monimutkaisemman
asiakaskonfiguraattoreiden teknisessä toteutuksessa tulisi ensisijaisesti hyödyntää
tietovarastointitekniikoita sen sijaan, että tarvittavaa tietoa haettaisiin suoraan organisaation
operatiivisista tietojärjestelmistä. Tutkimuksessa huomattiin, että massaräätälöinnin sekä sitä tukevien tietojärjestelmien tason kasvaessa ja näin ollen myös monimutkaistuessa, on tietovarastointitekniikoiden käyttö hyödyllistä ja kannattavaa.
2. Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
”Uusi data”: Ulkoiset, mahdolliset tietolähteet
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi Edistynyt
analytiikka
• Valtavat tietomassat (kun yli 1TB)
• Reaaliaikainen analytiikka
• Ei-rakenteinen tieto
+
Big data
Muut sovellukset ja palvelut
Data Mart
DB
DB
DB.
DB.
Barometrit Sosiaalinen
media
Avoin data
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Dataintegraatiot
Laitteet ja
sensorit
Webbilogit
• Kylmä data
Kyllä. Todellakin.
(mutta ei vielä hetkeen)
3. Louhia lyhyesti
● Louhia on vuonna 2009 perustettu kasvava ja
kannattava asiantuntijaorganisaatio, joka on
erikoistunut analytiikkaan ja dataan.
● Autamme asiakkaitamme muuttamaan datan
liiketoimintahyödyksi analytiikan avulla.
Konsultoimme, koulutamme ja kehitämme
erilaisia tiedon hallinnan ja analytiikan ratkaisuja.
● Asiakkaanamme on pääasiassa suuria
organisaatiota useilta toimialoilta kuten kaupan
alalta, teollisuudesta, pankki- ja vakuutusalalta,
mediasta ja julkiselta sektorilta.
Data-analyytikot
Murskaavat dataa ja
analysoivat tuloksia
Bisneskonsultit
Kääntävät tulokset
liiketoimintahyödyiksi
4. Palvelumme
Edistynyt analytiikka
• Tilastolliset menetelmät
• Koneoppiminen / Machine Learning
• Tekoäly / Artificial Intelligence
• Tarinallinen kerronta
• Käsite- ja tietomallinnus
• Tietovarastointi ja integraatiot
• Raportointi ja visualisointi
• KPI-mittaristot
Tiedonhallinta
• Esiselvitykset, määrittelyt ja arkkitehtuurisuunnittelu
• Toimittajakilpailutukset ja teknologiavalinnat
• Hanke- ja projektihallinta
• Tiedolla johtamisen ja analytiikan koulutukset ja valmennus
Konsultointi ja koulutukset
6. Aikajana – datan hyödyntäminen ei ole uutta
1970: ACNielsen ja IRI käyttivät
“dimensionaalista data marttia”
lisäämään vähittäismyyntiä
1988: “An architecture for a business
information system (IBM Systems Journal)
1990-luku: BI:n kasvu
8. Tekoäly vs. koneoppiminen
Toisesta näkökulmasta tarkasteltuna yhdistetään dataa,
koneoppimista, perinteistä ohjelmointia ja deterministisiä
sääntöjä keskenään
http://www.louhia.fi/artikkelit/auton-myyntihinnan-ennustaminen/
Vuosimalli
Vetotyyppi
Kilometrit
Kulutus
Syötä autosi tiedot
Tulosta ilmainen hinta-arvio
Tekoäly arvioi autosi hinnaksi
13 854 euroa
Auta tekoälyä oppimaan - oliko arvio
Hyvä HuonoIhan ok
9. Tekoälyn kahdet kasvot
● Suppea tekoäly
Ratkaisee jonkin spesifin osa-alueen haasteita
Esim. optimoi reittejä, ennustaa vikaantumista,
kohdentaa mainontaa
Tai auttaa tietovarastointiprosessissa
● Yleinen tekoäly
Ratkoo mitä tahansa haasteita
Ihmisaivojen laskentatehoon muutamia
kymmeniä vuosia
Poimitaan parhaat palat suppeista tekoälyistä ja
liitetään ne omiin kehitysprojekteihin
12. Mihin kaikkeen muuhun tekoäly kykenee?
Jokapäiväisiä ihmisten juttuja
Tunnistamaan esineitä kuvissa
Selaamaan Helsingin metroalueen karttaa
Tunnistamaan tunteita kasvoista ja puheesta
Lukemaan huulilta ihmistä paremmin
Kääntämään puhetta paremmin kuin ammattikääntäjät
Puhumaan
Matkustaminen
Ajamaan autoa
Lentämään dronea
Ennustamaan pysäköinnin haasteita alueittain
Tiede
Löytämään olemassa oleville lääkkeille uusi
käyttötarkoitus
Tunnistamaan syöpä paremmin kuin ihmiset
Ennakoimaan hypoglykeemisia tapahtumia
diabeetikoilla kolme tuntia etukäteen
Tunnistamaan riski sokeutumiselle verkkokalvon
kuvista
Turvallisuus
Paikantamaan murtovarkaita kotonasi
Kirjoittamaan oman salauskielen
Ennakoimaan yhteiskunnallisia levottomuuksia 5
päivää etukäteen
Tunnistamaan haittaohjelmat
Tarkastamaan henkilöllisyytesi
Laki
Ennakoimaan tapausten tulokset
ihmisoikeustuomioistuimessa 79 % todennäköisyydellä
Tarkastelemaan M&A-kauppoja
Löytämään virheitä oikeudellisissa asiakirjoissa
https://medium.com/on-coding/the-state-of-ai-9aae385c2038
14. Tekoäly ei osaa (aina) kertoa, miksi se
on päätynyt johonkin ratkaisuun
● Haastavaa esimerkiksi pankkimaailmassa
Yhdysvaltojen lainsäädännössä estetään uskonnon perusteella
tapahtuva syrjintä
Lainanantajan tulee esittää syyt, miksi hakijan luottoriskipisteet ovat
liian alhaiset
● Erityisesti haastavaa, jos väärän ennusteen tekemiseen
liittyvät kustannukset ovat erittäin korkeat
15.
16. Tietovarastoinnin kehitys - eilen
Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi
Data Mart
DB
DB
DB.
DB.
Barometrit
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
Sanastot
Metadatan
hallinta
Datan
mallintaminen
17. Tietovarastoinnin kehitys - tänään
Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
”Uusi data”: Ulkoiset, mahdolliset tietolähteet
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi Dataintegraatiot
• Valtavat tietomassat (kun yli 1TB)
• Reaaliaikainen analytiikka
• Ei-rakenteinen tieto
+
Big data
Muut sovellukset ja palvelut
Data Mart
DB
DB
DB.
DB.
Barometrit Sosiaalinen
media
Avoin data
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Edistynyt
analytiikka
Laitteet ja
sensorit
Webbilogit
• Kylmä data
18. Tekoälyn hyödyntäminen tietovarastoinnissa
Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
”Uusi data”: Ulkoiset, mahdolliset tietolähteet
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi Edistynyt
analytiikka
• Valtavat tietomassat (kun yli 1TB)
• Reaaliaikainen analytiikka
• Ei-rakenteinen tieto
+
Big data
Muut sovellukset ja palvelut
Data Mart
DB
DB
DB.
DB.
Barometrit Sosiaalinen
media
Avoin data
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Dataintegraatiot
Laitteet ja
sensorit
Webbilogit
• Kylmä data
Datan laadunvalvonta:
- Volyymit pysyvät järkevinä
- Sisältö pysyy järkevänä
Datan paikkaus
analytiikan keinoin
Tietomallinnus
20. Ylätason
käsitemalli
Osa-alue
kohtainen
käsitemalli
Looginen
malli
Fyysinen
tietokanta
pääkäsitteet ja kuvaukset
kaikki käsitteet ja kuvaukset
kaikki tiedot ja tarkat rakenteet
kaikki taulut ja tietokentät
ETL-
toteutus
Ajojen
suoritus
Tietomallinnuksen toteutus ja metadatan
muodostuminen
ajoaikataulu ja toteutuneet ajojen ajankohdat
taulut, kentät, tietovirrat, tietojen muokkaus
Business-
metadata
Tekninen
metadata
Prosessi-
metadata
Määrittely-
dokumen-
taatio
Suunnittelu-
dokumen-
taatio
takaisinmallinnus
mallinnus
21. Tulevaisuuden tietomallinnus
● Automatisoidaan datan mallinnusprosessia
● Kone oppii rakenteita, muokkaa niitä
lennossa, ”ajattelee” kontekstia ja korjaa
prosesseja
● Oppiminen tapahtuu esimerkiksi tehtyjen
kyselyiden ja analyysien kautta
23. Ennusteita
● Perinteinen fyysinen tiedon mallintaminen katoaa ja poistuu
täysin, kun relaatiotietokantapohjaiset järjestelmät
muuttuvat NoSQL-tyyppisiksi järjestelmiksi/rajapinnoiksi
● Vaikka kone (ehkä) tekeekin datan fyysisen mallintamisen
tulevaisuudessa, looginen tiedon mallintaminen tulee
olemaan läsnä vielä pitkään
Perustana ontologiatyö – ihmisen ja koneen ymmärtämä kuvaus
käsitteistä ja niiden välisistä suhteista
Ylätason
käsitemalli
Osa-alue
kohtainen
käsitemalli
Looginen
malli
Fyysinen
tietokanta
ETL-
toteutus
Ajojen
suoritus
25. Datan laatu ja luotettavuus
● Datan laatu on ollut perinteisesti IT:n tehtävä
katsotaan datan perään
ymmärretään sen sisältöä (profilointi)
luodaan tietojen puhdistus- ja yhteensovitussääntöjä
(standardointi)
● Kun säännöt on luotu ja tuotettu, on pyrittävä
mittaamaan jokaisen tietojoukon laatua
säännöllisin väliajoin
26. Datan laatu ja luotettavuus
● Koneoppimisella on paljon
soveltamismahdollisuuksia datan laadun
arvioinnissa
● Tulevaisuuden älykäs tietoalusta sisältää
komponentin, joka
osallistuu tietojen laadun arviointiprosessiin,
ehkä automatisoi osan tarkastuksista
ja kehittyy ajan mittaan entistä itsenäisemmäksi
27. Järjestelmälliset vs. satunnaiset virheet
● Järjestelmälliset virheet esiintyvät säännöllisesti tietyissä olosuhteissa
Huono kandidaatti koneoppimiselle, sillä ongelman tunnistaminen vaatii
tietämystä datan käytöstä
Käyttäjien on helpompi tunnistaa tällaisia virheitä, varsinkin jos ne esiintyvät
usein
● Satunnaiset virheet tapahtuvat epäsäännöllisesti tietyissä olosuhteissa
Esimerkiksi äkillinen muutos datan arvoissa
Tällaisia virheitä on suhteellisen helppo havaita tilastollisten menetelmien avulla
(vs. normaalit arvot)
Ihmiselle nämä voivat helposti piiloutua suurien tietomäärien taakse, jos ne
ilmenevät harvoin
28. Esimerkki Runsaasti dataa kerääviä järjestelmiä,
kuten ERP, CRM, tuotanto, talous ja HR
Tietovarasto
Dataa siirretään
tietovarastoihin
Erilaisia automatisoituja
datasiirtoja voi olla
sadoista useisiin
tuhansiin.
Miten varmistaa, että
dataa siirtyy oikea määrä?
29. Ratkaisu
Annetaan analytiikan seurata siirrettävän datan volyymeja ja antaa varoitus, jos dataa tulee
liian vähän tai liikaa. Esimerkki – myyntirivien seuranta per tuoteryhmä.
Tuoteryhmässä XYZ myynti on tasaista ympäri vuoden. Datat tulevat yli sadasta eri
kauppaliikkeestä ja joskus niiden latauksissa on ongelmia.
Tilastollinen malli luo automaattisesti luottamusvälit datavolyymin vaihtelulle. Mikäli
toteutunut datavolyymi rikkoo luottamusvälin, niin siitä lähtee tiedote ylläpitoon.
Esimerkkikuva oikeasta datasta laskettuna.
Osa tiedoista ei tullut ollenkaan,
joten volyymit putosivat, mutta
esim. ETL-prosessi ei varoittanut
virheestä.
30. Datan standardointi / matchaus
● Prosessissa siivotaan dataa, poistetaan
duplikaatteja ja yhdistellään tietueita
● Käsin tehtynä sääntöjen määrittäminen
kestää, vaatii syvällistä ymmärrystä
datasta ja on kallista
● Koneoppiminen modernilla data-
alustalla voi luoda matchaussääntöjä
automaattisesti datasta
Järjestelmä mukautuu dataan ja käyttäjien
käyttäytymiseen
Helsinki
Stadi
Hesa
HEL
H3ls1nk1
32. Datan parantaminen ja paikkaus
● Koneoppimista voidaan hyödyntää datan
rikastamiseen tai paikkaamiseen ilman
käyttäjän syötettä
Esimerkiksi segmentointiattribuutit,
asiakaspoistuma, luottotappio, asiakkaan tietojen
täydentäminen ym.
● Voidaan ymmärtää esimerkiksi
markkinointikampanjan vaikuttavuus tai
riski jo ennen suunnittelu- tai
toteutusvaihetta
33. Datan korjaaminen / rikastaminen
CRM-järjestelmän datan korjaaminen:
• CRM sisältää 500 000 asiakkaan tiedot
• 20% asiakkaista on antanut kattavat tiedot
• 80%:illa asiakkaista on paljon puuttuvaa tietoa
• Kaikkien asiakkaiden kohdalta on ostotapahtumat
tallessa
Nyt valitaan asiakkaat, joilta on kattavat CRM- ja
ostotapahtumat tallessa. Heidän datallaan
muodostetaan malli, joka ennustaa puuttuvat CRM-
tiedot muille (80%) asiakkaille. Kun kaikille asiakkaille
on olemassa kattavat tiedot, niin kohdennettu myynti
ja markkinointi on paljon helpompaa ja tehokkaampaa.
Tällaista lähestymistapaa käyttävät mm. Google ja
Amazon, kun he profiloivat käyttäjiä ja kohdentavat
heille tarjontaansa. Ne tietävät joitakin varmoja asioita
asiakkaistaan, mutta osaavat ennustaa loput riittävällä
tarkkuudella.
http://www.louhia.fi/2015/02/27/dataan-laatua-analytiikalla-osa-1/
35. Korvaako tekoäly perinteisen
tietovaraston?
● Kyllä, mutta ei vielä hetkeen. Pistemäisiä
(suppeaan tekoälyyn perustuvia)
parannuksia on jo nähty ja tehty
● Tietovarastosta saattaa tulevaisuudessa
tulla musta laatikko, joka imaisee
lähdejärjestelmien rakenteita sekä datoja ja
muodostaa tuloksen loppukäyttäjän
tarpeen mukaan
36. Korvaako tekoäly perinteisen
tietovaraston?
Tekoälyn yhteydessä etsitään business caseja,
joissa isot kertatuotot on mahdollisia
Vaihtoehtoisesti voidaan etsiä pieniä ja maltillisia
caseja ratkaistavaksi, jotka kuitenkin tehostavat
toimintaa
Esim. siirretään manuaalisia DW:n työvaiheita AI-
ratkaisun tehtäväksi
Pienet parannukset tuovat suuren kumulatiivisen
hyödyn
37. Korvaako tekoäly perinteisen
tietovaraston?
Hyöty ei välttämättä tule siitä, että
tekoäly tekisi työn ihmistä tarkemmin tai
paremmin
Se kuitenkin todennäköisesti tekee työn murto-
osassa siitä, mikä aika kuluu ihmiseltä
38. Fredrikinkatu 61
00100 Helsinki
Keskustie 20 D 27
40100 Jyväskylä
Länsikatu 15
80110 Joensuu
mika.aho@louhia.fi
040 590 6949 / Mika
www.louhia.fi
Tsekkaa myös Suomen suosituin
analytiikkablogi osoitteessa
Kiitos mielenkiinnostasi!
Editor's Notes
97-2007 (10-15 vuotta ei tapahtunut mitään)
2013 laskentatehot merkittäviä, datan määrät kasvaneet merkittävästi
(puheen, kielentunnistus ym. kehittynyt valtavasti) -> livenä mahdollista
AlphaGO (kiinalainen shakki) 2016 alussa
syötti miljoonia pelejä, tämän jälkeen jaettiin kahtia ja algoritmit pelasivat toisiaan vastaan
-> suljettu maailma, nykyisin sovelletaan oikeaan monimutkaisempaan maailmaan
Deep learning
- Monikerrosneuroverkko, jota on kehitetty teoreettisesti jo 50-luvulla
- Laskentatehot mahdollistaneet
- Tekoälyssä yhdistellään dataa, perinteistä ohjelmointia, deterministisiä sääntöjä ja koneoppimista keskenään
- Dataa, neuroverkko joka oppii sen (=ML)
- Autojen hintojen vertailuun ohjelmistokerros, jossa vaikka kerrotaan ettei hinta ole alle 0
- Ohjelmistokerros voi ohjata neuroverkkoa (kertoo onko tarkka ja pysyykö kunnossa)
- Opettaa neuroverkkoa
Tilastotiede vs. ML
- Luodaan teoria, kootaan datasetti, tehdään tilastollisia malleja, joilla testataan toimiiko teoria, muuttujat ei saa korreloida keskenään ym.
- ML ei ole teoriaa asiasta, vaan katsotaan mitä data kertoo meille
Van Gogh
Picasso
Microsoftin kehittämä keskustelubotti ”Tay” on opetettu rasistiksi ja seksistiksi sekä syyskuun 11. päivän salaliittoteorioiden kannattajaksi.
Tayn rasismi ei ole Microsoftin tai Tayn ominaisuus, vaan Tay pyrkii oppimaan, miten ihmiset keskustelevat. Ihmiset onnistuivat jekuttamaan bottia, koska botti ei ”tiennyt”, mistä keskusteli, ja tätä heikkoutta Twitter-käyttäjät hyödynsivät.
Baptistit vs. luterilaiset
Informaatio: Tietotarpeen näkökulman mukaiset käsitteet, rakenteet ja muodostus. Tiedot tallennettu tietotarvekohtaisesti (tähtimalli)
EDW: Yhteinen validoidut käsitteet, rakenteet ja integrointisäännöt
Data Lake: Lähdejärjestelmien tiedot ja niiden kuvausten täydennykset, johdettujen tietojen kuvaukset, työversioiden kuvaukset
Dimensional -> Data Vault
Relaatiokannat Useita eri data-alustatyyppejä: graafikannat ja dokumenttikannat (NoSQL), HDFS
Bimodaalinen BI
Fyysinen datan mallintaminen tapahtuu matemaattisesti laitteistotasolla
Data Vault perustuu myös ontologiseen luokitteluun
Ontologiatyön tavoitteena on esittää tietoa tietystä käsitteistöstä niin, että myös kone pystyy hyödyntämään käsitteisiin liittyvää tietoa
Case ennustemalli ja Yle
Tällaisia virheitä voi olla hyvin vaikeaa havaita (yleisessä mielessä) koneoppimisen keinoin, koska ongelman tunnistaminen voi edellyttää suhteellisen syvällistä tietämystä siitä, mitä datasta voidaan saada aikaan
Virhe ei jää normaalin ETL-käsittelyn piiriin, koska dataa tulee läpi, mutta vain murto-osa aiemmasta – ajot sinällään toimivat niin kuin pitääkin
Voidaan toteuttaa esim. Bollinger Bands –systeemillä (treidaajien työkalu)
Lasketaan liukuva keskiarvo esim. 21 päivää taaksepäin ja sille luottamisvälit esim. kahden keskihajonnan mukaan
Siivoamista ja duplikaattien poistamista yhdistetään samaksi
Mistä tiedetään, että kaksi asiaa ovat sama?
Deduplikointi: esimerkiksi uutisten kanssa, jotka sisältävät samankaltaista informaatiota
Kun tietolähteiden määrä kasvaa ja datan formaatti sekä tietotyypit lisääntyvät, sääntöjen rakentamisesta tulee iso harjoitus
Datan manuaalisen yhteensovittamisen tarkkuus on kyseenalaista
Alla oleva kuva näyttää asiakastietojärjestelmän siten kuten yritys itse sen kokee. Tiedot ovat tip top täydellisesti täytettyjä ja data eheää.
data on harvaa. Osa muuttujista on täytetty 1-5%:lle asiakkaista virheellisiä merkkejä. Esimerkiksi numerokenttään (ikä) on tuotu kirjaimia vapaat tekstikentät ovat mahdollistaneet kymmeniä variaatioita esimeriksi kaupunkien nimistä tietoa ei ole vain kerätty, asiakastiedolle ei ole nähty arvoa koska sitä ei ole tarvittu päivittäisessä toiminnassa
Olemme olleet hankkeessa, jossa asiakastiedoista löytyi noin 30 eri tapaa kirjoittaa Helsinki. Näimme kaikki variaatiot kuten Stadi, snadi, hesa, Helzinki, Hell, isokirkko…