Your SlideShare is downloading. ×
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Big datan ja analytiikkamaailman käsitteiden läpikäyminen

723
views

Published on

Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä, …

Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä,
Moduuli 1: Big Data nyt ja tulevaisuudessa.

Published in: Business

0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
723
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
35
Comments
0
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Big Datan ja analytiikkamaailman käsitteiden läpikäyminen Jari Jussila / TTY Big Data ja data-analytiikka liiketoiminnan kehittämisessä Moduuli 1: Big Data nyt ja tulevaisuudessa 12.3.2014
  • 2. Big Data 30.3.2014 2 Volyymi Vauhti Variaatio Varmuus Data at Rest Data in Motion Data in Many Forms Data in Doubt Terabittejä olemassa olevaa dataa prosessoitavaksi Striimattua dataa, nopea vasteaika millisekunneista sekunteihin Strukturoitua, ei- strukturoitua, ja semistrukturoitua dataa Epävarmuutta liittyen datan epätäydellisyyteen, puutteellisuuteen, tai virheellisyyteen Lähde: Breuker 2014; Laney, Meta Group 2001 (3V:tä)
  • 3. Big Data transaktioista interaktioihin 30.3.2014 3 WEB BIG DATA Lähde: mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013 ERP CRM ostotiedot maksutiedot segmentointi tarjoustiedot asiakaskohtaamiset tukikontaktit weblogit tarjoushistoria A/B testaaminen Dynaaminen hinnoittelu Hakukonemarkkinointi ja optimointi Mainosverkostot Käyttäytymispohjainen kohdentaminen Dynaamiset funnellit Sentimentti Ulkopuolinen demografia Kuvat ja videot Puheen muuttaminen tekstiksi Feedit Anturi/sensoridata Tuote / palvelu logit SMS/MMS Sosiaaliset verkostot Sosiaalinen media Käyttäjien luoma sisältö Mobiilidata Navigointihistorian analyysi Sijaintidata
  • 4. Datan lajeja Datan laji Muoto Volyymi Kuvaus Esimerkkejä Master Data Strukturoitu Matala Yritystason dataa jolla on strategista arvoa organisaatiolle Asiakas, tuote, toimittaja Transaktiodata Struktoroitu & semi- strukturoitu Keskinkertainen - korkea Transaktiot joita syntyy liiketoiminta-prosesseissa Tilaukset, ostot, maksut Referenssidata Struktoroitu & semi- strukturoitu Matala – keskin- kertainen Faktoja jotka tukevat organisaation kykyä tehokkaasti prosessoida transaktioita, hallita masterdataa ja tukea päätöksiä Demografiset kentät Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan dimensiot tai yksiköt, ym. Analytiikkadata Strukturoitu Keskinkertainen - korkea Liiketoimintaoperaatiosta tai transaktioista jalostettua tietoa raportoinnin ja analytiikan tarpeisiin Data joka sijaitsee tietovarastoissa ja päätöksenteon tukijärjestelmissä Big Data Struktoroitu, semi- strukturoitu ja ei strukturoitu Korkea Isoja data settejä, joita on haastava tallentaa, etsiä, jakaa, visualisoida ja analysoida Ihmisten ja koneiden luomaa dataa sosiaalisesta mediasta, webistä, mobiililaitteista, sensoreista, ym. 30.3.2014 4 Lähde: Big Data and Analytics [Kaisler et al. 2014]
  • 5. Master data • organisaation ydintieto on usein kaikkein tärkeintä liiketoiminnalle ja siinä menestymiselle sekä data-lähtöiselle päätöksenteolle • ydintietoa käytetään useissa yrityksen prosesseissa ja tietojärjestelmissä, joten ydintietojen muotojen standardointi ja arvojen synkronointi on kriittistä järjestelmien onnistuneelle integroinnille • ydintiedoksi mielletään usein esimerkiksi asiakastiedot ja tuotetiedot 30.3.2014 5 Lähde: Vilminko-Heikkinen & Pekkola 2013
  • 6. Big Data, Data-analytiikka ja lähikäsitteet • Big Data can be defined as the amount of data just beyond technology’s capability to store, manage and process efficiently. (Kaisler et al. 2014) • Data analytics is the science of examining raw data with the purpose of drawing conclusions about that information. (Rouse 2008) • Business analytics is the scientific process of transforming data into insight for making better decisions (INFORMS) • Business Intelligence refers to the technologies, applications, and processes for gathering, storing, accessing, and analyzing data to help its users make better decisions (Wixom and Watson, Teradata University Network 2012) 30.3.2014 6
  • 7. Datan käyttöön ja analysointiin liittyvää terminologiaa Termi Ajanjakso Kuvaus Päätöksenteon tuki [Decision Support] 1970-1985 Hyödynnetään data analyysiä tukemaan päätöksentekoa Johdon tukijärjestelmät [Executive Support Systems] 1980-1990 Fokus data analyysissä ylemmän johdon tueksi Kuutioiden mallinnus [Online Analytical Processing OLAP] 1990-2000 Ohjelmistoja multidimensionaalisten data taulujen analysointiin Liiketoimintatiedon hallinta [Business Intelligence] 1989-2005 Työkaluja tukemaan datalähtöistä päätöksentekoa, painopiste raportoinnissa Analytiikka [Analytics] 2005-2010 Fokus tilastollisessa ja matemaattisessa analyysissä päätöksenteon tueksi Iso Data [Big Data] 2010- Fokus erittäin isossa, monimuotoisessa ja nopeasti liikkuvassa datassa 30.3.2014 7 Lähde: Big Data at Work [Davenport, 2014]
  • 8. Kuka lunastaa Big Data toiveet? Data Scientist – datatieteilijä? • Mitä osaamista vaaditaan datatietelijältä /-tiimiltä? – Liiketoimintaosaaminen – Toimialakohtainen osaaminen – Ohjelmointi • ”most basic, universal skill is the ability to write code…” – Tietojenkäsittely, mm. datan kerääminen, siivous, yhdistäminen – Matematiikka, mm. tilastotiede, algoritmit, SNA, ym. – Kommunikointikyky • ”…more enduring will be the need for data scientist to communicate in language that all their stakeholders understand – and to demonstrate the special skills involved in storytelling with data, whether verbally, visually, or –ideally –both” – Big data tekniikat – “The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades.” Hal Varian 30.3.2014 8 Lähde: Loukides 2010; Davenport & Patil 2012
  • 9. Raportoinnista operationaaliseen data-analytiikkaan 30.3.2014 9 Raportit RAPORTOIDAAN MITÄ tapahtui? ANALYSOIDAAN MIKSI se tapahtui? Ad hoc BI työkalut ENNUSTETAAN MITÄ TULEE tapahtumaan? Ennustavat mallit OPERATIONALISOIDAAN MITÄ ON tapahtumassa nyt? Linkki operatiivisiin järjestelmiin AKTIVOIDAAN PISTETÄÄN tapahtumaan Automaattiset linkitykset STRATEGINEN ÄLYKKYYS OPERATIONAALINEN ÄLYKKYYS Lähde: mukaillen Yli-Pietilä & Backman 2013
  • 10. Eri analytiikka tyyppejä • Deskriptiivinen analytiikka: tekniikoita joiden avulla voidaan ymmärtää dataa ja analysoida liiketoiminnan suoriutumiskykyä • Diagnostiivinen analytiikka: tekniikoita joiden avulla voidaan ymmärtää mitä on tapahtunut ja miksi • Prediktiivinen analytiikka: tekniikoita joiden avulla voidaan analysoida nyky- ja historiatietoa jotta voidaan päätellä mitä todennäköisesti tapahtuu tai ei tapahdu • Preskriptiivinen analytiikka: tekniikoita joiden avulla voidaan laskennallisesti kehittää ja analysoida vaihtoehtoja organisaation toiminnalle • Päätöksentekoa tukeva analytiikka: tekniikoita joiden avulla voidaan visualisoida informaatiota päätöksen teon tueksi 30.3.2014 10 Lähde: Big Data and Analytics [Kaisler et al. 2014]
  • 11. Analytiikkasykli 1. Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen 2. Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten 3. Deskriptiivinen analytiikka – Perehdy dataan (descriptives, correlations, factor analysis, cluster analysis, ym.) – Luo mahdollisia hypoteeseja (data mining ym.) 4. Prediktiivinen analytiikka – Muodosta hypoteesit – Tunnista soveltuvimmat analytiikkamenetelmät – Kehitä analyyttiset mallit (multivariate regression, logistic regression, forecasting, non-linear models, decision trees, ym.) – Aja mallit ja luo ennusteet 5. Preskriptiivinen analytiikka – Kehitä päätös- ja optimointimallit – Hyödynnä koneoppimista päätöksien ohjelmointiin 6. Kirjoita johtopäätökset ja suositukset 30.3.2014 11 Lähde: Introduction to Big Data [Kaisler et al. 2014]
  • 12. Kuinka BI on muuttunut Big Datan myötä? Big Data Business analytiikka Business Intelligence Vanhaa • Relaatiotietokannat • SQL • Tietovarastot • Tiedonlouhinta • Kvantitatiivinen analyysi • Tilastotiede • Operaatiotutkimus • Päätöksenteon tukijärjestelmät • Johdon tietojärjestelmät • OLAP Uutta • 4V:tä • Monimuotoista dataa • Vähemmän struktuuria • Big Data teknologiat (MapReduce, Hadoop, NoSQL, ym.) • Ei strukturoitua dataa • Dataa monesta lähteestä • Monimuotoista dataa • Data liikkeessä • Tekstianalytiikka • Visuaalinen analytiikka • Sosiaalisen median analytiikka • Helppokäyttöisyys • Visuaalisuus • Dynaamisuus • Kattaa organisaation prosessit • Koneoppiminen • RTAP 30.3.2014 12 Lähde: mukailtu Introduction to Big Data [Kaisler et al. 2014]
  • 13. Liiketoimintatiedon hallinnan prosessimalli ja keskeiset tehtävät 30.3.2014 13 Lähde: Tietojohtaminen [Laihonen et al. 2013]
  • 14. Ymmärrys Näkemys Tiedon tasot 30.3.2014 14 Data Informaatio Tietämys Lähde: Laihonen et al. 2013; Tuomi 1999; Thierauf 1999; Ackoff 1989 Älykkyys Viisaus
  • 15. Tiedon arvoketju BI- näkökulmasta 30.3.2014 15 Lähde: Myllärniemi 2012
  • 16. Tiedonhallinnan tasot 30.3.2014 16 Innovoiva Erottuva Arkistoiva Mallinnus Visualisointi Ennustaminen Optimointi Raportointi ”Löytyisikö täältä jotain?” ”Tiedän mitä tarvitsen mutta haluan tehdä sen kilpailijoita paremmin" ”Tätä tarvitaan mutta tällä ei erotuta" Lähde: Informaatiosta kilpailuetua teollisuusyrityksiin [Valli & Ahlgren 2013] tieto, joka on tallennettava esimerkiksi määräysten perusteella tieto, jonka avulla voidaan edistää ja parantaa nykyistä liiketoimintaa tieto, jonka avulla voidaan innovoida uutta liiketoimintaa
  • 17. Lähteitä • Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain- Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences. • Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review. October 2012. • Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business Review. • Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January 6, 2014, Waikoloa, Hawai’i. • Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January 6, 2014, Waikoloa, Hawai’i. • Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global Environment. 47th Hawaii International Conference on System Sciences. • Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi, J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen yliopisto. • Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February 2001. • Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge. http://www.kiwidatascience.it/wp- content/uploads/2013/05/What_Is_Data_Science_.pdf • Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era. Teradata • Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus. http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html • Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A Step-wise Approach. 46th Hawaii International Conference on System Sciences. 30.3.2014 17