Mitä	  on	  Big	  Data?13.03.2012Immo	  SaloEufris
Big	  Data:	  yleisesi>ely
Gartnerin	  top	  10	  strategista	  teknologiaa1. Media	  Tablets	  and	  Beyond2. Mobile-­‐Centric	  Applica9ons	  and	 ...
Big	  Data	  ja	  Cloud	  CompuEng• Vuodet	  2009-­‐2011	  olivat	  ak2ivista	  Cloud	  Compu2ng-­‐  markkinoin2a• Vuonna	...
Pari	  yleistä	  kuvaa 2012       2015           2020
Mitä	  on	  Big	  Data?• Big	  Data	  on	  kaAokäsite	  joukolle	  teknologioita                                         K...
Mitä	  on	  Big	  Data?• Se	  on	  markkinoin2termi,	  aivan	  kuten	  Cloud	  Compu2ng                                   ...
Big	  Data-­‐määritelmiä"Big data technologies describe a new generation of technologies andarchitectures, designed to eco...
Miksi	  Big	  Datan	  pitäisi	  kiinnostaa?• McKinseyn	  ennustus:  • $250	  mrd/vuosi	  säästöpoten5aali	  EU-­‐alueen	  ...
Mistä	  dataa	  oikein	  tulee?                                     Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com,...
Osaajapula	  uhkaa “There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018,...
Big	  Data:	  viitekehyksiä
Big	  Datan	  ABC• Analy2cs	  (analy5ikka)  • Data	  pitää	  jalostaa	  informaa2oksi,	  2edoksi	  ja	  ymmärrykseksi.	  V...
Big	  Datan	  kolme	  V-­‐kirjainta	  (3V)• Variety	  (vaihtelevuus)   • Dataa	  on	  strukturoitua	  ja	  strukturoimaton...
Kaksi	  V-­‐kirjainta	  lisää	  (3V+2V	  =	  5V)• Viscosity	  (viskositeeD)   • MiAaa	  sitä,	  miten	  nopeas2	  datasta	...
Big	  Data:	  käsi>eitä
Hadoop• Avoimen	  lähdekoodin	  Apache-­‐projek2,	  joka	  on	  ehkä	    tunnetuin	  yksiAäinen	  tuotenimi	  Big	  Data-­...
Esimerkki:	  Facebook• Facebook	  on	  yksi	  suurista	  Hadoopin	  käyAäjistä.	  KäyAäjien	    vies2en	  osalta	  HBaseen...
MapReduce• Googlen	  vuonna	  2004	  esiAelemä	  laskentamalli                                     2                      ...
NoSQL• Määritelmä	  1:  “Next Generation Databases mostly addressing some of the points: being  non-relational, distribute...
NoSQL• Määritelmä	  2:  “In computing, NoSQL (sometimes expanded to "not only SQL") is a broad  class of database manageme...
Big	  Data	  tuo>eita
Oracle	  Big	  Data	  Appliance• Hinta	  n.	  500	  000	  $18 Oracle Sun Servers • 864 GB main memory; • 216 CPU cores; • ...
Autonomy	  IDOL	  10"For far too long, organizations have confined structured data to relational databasesand unstructured...
IBM	  InfoSphere	  BigInsights• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is  inspired ...
SAP	  HANA “Why wait for old-fashioned data analysis? Tap into huge volumes of detailed information as events unfold with ...
Big	  Data	  pilvipalveluna
MapReduce	  ja	  NoSQL	  pilvessä                                       EC2                                       S3      ...
Amazon	  ElasEc	  MapReduce• Hadoop-­‐klusteri	  palveluna• Ei	  sitoutumista,	  ei	  kiinteitä	  kustannuksia
Amazon	  ElasEc	  MapReduce	  hinnatKäyttöönotto 0 €, ei sitoumuksia.
Amazon	  DynamicDB• NoSQL-­‐2etokanta	  palveluna• Ei	  sitoutumista,	  ei	  kiinteitä	  kustannuksia• Saatavilla	  EU-­‐a...
Amazon	  DynamoDB	  hinnatKäyttöönotto 0 €, ei sitoumuksia.
Google	  BigQuery	  ja	  Cloud	  SQL• Google	  BigQuery  • OLAP	  	  	  	  	  	  	  	  	  	  	  Online	  Analy5cal	  Proce...
Google	  BigQuery	  esimerkki                             Aineisto:                             Wikipedia                 ...
KIITOS!
Upcoming SlideShare
Loading in...5
×

Mitä on big data, Aamiaistilaisuus 13.03.2012

952

Published on

13.03.2012 pidetty aamiaistilaisuus Big Datasta.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
952
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Mitä on big data, Aamiaistilaisuus 13.03.2012

  1. 1. Mitä  on  Big  Data?13.03.2012Immo  SaloEufris
  2. 2. Big  Data:  yleisesi>ely
  3. 3. Gartnerin  top  10  strategista  teknologiaa1. Media  Tablets  and  Beyond2. Mobile-­‐Centric  Applica9ons  and  Interfaces3. Contextual  and  Social  User  Experience4. Internet  of  Things5. App  Stores  and  Marketplaces6. Next-­‐Genera9on  Analy9cs7. Big  Data8. In-­‐Memory  Compu9ng9. Extreme  Low-­‐Energy  Servers10.Cloud  Compu9ng
  4. 4. Big  Data  ja  Cloud  CompuEng• Vuodet  2009-­‐2011  olivat  ak2ivista  Cloud  Compu2ng-­‐ markkinoin2a• Vuonna  2012  fokus  on  siirtynyt  Big  Dataan• Osa  toimijoista  on  samoja  ja  osa  tarjoomista  en2siä   uudelleen  nimeAyinä Cloud Envy Big Data Envy
  5. 5. Pari  yleistä  kuvaa 2012 2015 2020
  6. 6. Mitä  on  Big  Data?• Big  Data  on  kaAokäsite  joukolle  teknologioita Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)
  7. 7. Mitä  on  Big  Data?• Se  on  markkinoin2termi,  aivan  kuten  Cloud  Compu2ng Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com
  8. 8. Big  Data-­‐määritelmiä"Big data technologies describe a new generation of technologies andarchitectures, designed to economically extract value from very largevolumes of a wide variety of data, by enabling high-velocity capture,discovery, and/or analysis"IDC"Big Data is a technlogy that helps extract value from the digital universe.”IDC"Techniques and technologies that make handling data at extreme scaleeconomical."Forrester
  9. 9. Miksi  Big  Datan  pitäisi  kiinnostaa?• McKinseyn  ennustus: • $250  mrd/vuosi  säästöpoten5aali  EU-­‐alueen  julkisella  sektorilla • $600  mrd/vuosi  poten5aalinen  taloudellinen  lisäarvopoten5aali   paikka5etojen  hyödyntämisessä• Tiedon  määrä  kasvaa  vauhdilla • Datan  määrä  50-­‐kertaistuu(!)  seuraavan  kymmenen  vuoden   aikana  maailmassa
  10. 10. Mistä  dataa  oikein  tulee? Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
  11. 11. Osaajapula  uhkaa “There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.” Lähde: McKinsey
  12. 12. Big  Data:  viitekehyksiä
  13. 13. Big  Datan  ABC• Analy2cs  (analy5ikka) • Data  pitää  jalostaa  informaa2oksi,  2edoksi  ja  ymmärrykseksi.  Visualisoin2,   konkre2soin2,  ennusteiden  tekeminen,  tunnuslukujen  laskeminen,  korrelaa2oiden   hakeminen...• Bandwidth  (5etoliikenne) • Suurten  2etomäärien  liikuAelu  on  yhä  useammin  pullonkaula.  Lähtökohtainen  päätös   siitä,  missä  2etoja  säilytetään  ja  missä  niitä  prosessoidaan  on  yhtä  merkiAävä  kuin   käytetyt  teknologiat  ja  analyysin  hyödyntämiskohteet.• Content  (sisältö) • Edelleen  suuri  osa  2edosta  säilytetään,  muAa  jätetään  käyAämäAä  tai  vielä   pahempaa:  heitetään  hukkaan  ilman  ensimmäistäkään  analyysia. Lähde: Netapp.com
  14. 14. Big  Datan  kolme  V-­‐kirjainta  (3V)• Variety  (vaihtelevuus) • Dataa  on  strukturoitua  ja  strukturoimatonta.  Molempia  pitää  pystyä  hyödyntämään.• Velocity  (vauh5) • Datan  määrä  kasvaa  vauhdilla  ja  sitä  tulee  lukemaAomista  lähteistä.  Lähes   reaaliaikaisen  analyysi  tavoiAeena.• Volume  (voluumi) • Data  pitää  pystyä  analysoimaan  ja  säilyAämään  myöhempää  käyAöä  varten. Lähde: Netapp.com
  15. 15. Kaksi  V-­‐kirjainta  lisää  (3V+2V  =  5V)• Viscosity  (viskositeeD) • MiAaa  sitä,  miten  nopeas2  datasta  saadaan  jalosteAua  jotain  liiketoiminnalle   hyödyllistä.• Virality  (viraalisuus) • Kuvaa  2edon  siirtymisen  nopeuAa  ihmiseltä  toiselle  (viraalisuuAa)  organisaa2on  sisällä   tai  sen  toimintaverkostossa. Lähde: Netapp.com
  16. 16. Big  Data:  käsi>eitä
  17. 17. Hadoop• Avoimen  lähdekoodin  Apache-­‐projek2,  joka  on  ehkä   tunnetuin  yksiAäinen  tuotenimi  Big  Data-­‐tarjoomista• TarkoiteAu  suurten  datamäärien  hajauteAuun  prosessoin2in• Asennetaan  palvelinklusteriin,  joka  on  vikasietoinen  eli   yksiAäisen  palvelimen  vikaantuminen  ei  haiAaa• Kolme  alaprojek2a 1. Hadoop  Common 2. Hadoop  Distributed  Filesystem 3. Hadoop  MapReduce
  18. 18. Esimerkki:  Facebook• Facebook  on  yksi  suurista  Hadoopin  käyAäjistä.  KäyAäjien   vies2en  osalta  HBaseen  yritys  siirtyi  täysin  kesällä  2011.   Luvut  ovat  massiivisia: • 8  miljardia(!)  vies9ä  päivässä • yli  75  miljardia  luku-­‐/kirjoitustapahtumaa  päivässä • ruuhka-­‐aikoina  1.5  miljoonaa  luku-­‐/kirjoitustapahtumaa   sekunnissa(!) • 2  petatavua  online  dataa  (ja  6  petatavua  varmuuskopioita) • datan  määrä  kasvaa  250  teratavua  kuukaudessa
  19. 19. MapReduce• Googlen  vuonna  2004  esiAelemä  laskentamalli 2 2 Map 2 Reduce 3 4 1 5 2 3
  20. 20. NoSQL• Määritelmä  1: “Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. The original intention has been modern web-scale databases. The movement began early 2009 and is growing rapidly. Often more characteristics apply as: schema-free, easy replication support, simple API, eventually consistent, a huge data amount, and more.” Nosql-database.org
  21. 21. NoSQL• Määritelmä  2: “In computing, NoSQL (sometimes expanded to "not only SQL") is a broad class of database management systems that differ from the classic model of the relational database management system (RDBMS) in some significant ways. These data stores may not require fixed table schemas, usually avoid join operations, and typically scale horizontally.” Wikipedia.org
  22. 22. Big  Data  tuo>eita
  23. 23. Oracle  Big  Data  Appliance• Hinta  n.  500  000  $18 Oracle Sun Servers • 864 GB main memory; • 216 CPU cores; • 648 TB of raw disk storage; • 40 Gb/s InfiniBand connectivity between nodes and engineered systems; • 10 Gb/s Ethernet connectivity.
  24. 24. Autonomy  IDOL  10"For far too long, organizations have confined structured data to relational databasesand unstructured data to simplistic keyword matching technologies..."“IDOL 10 brings these worlds together, allowing organizations to automaticallyprocess, understand, and act on 100 percent of their data, in real-time. The results willbe dramatic, as businesses can develop entirely new applications that explore therichness and color of Human Information that live in unstructured, semi-structured,and structured forms.”Hinta?
  25. 25. IBM  InfoSphere  BigInsights• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is inspired by, and is compatible with, open source Apache Hadoop and used to store, manage, and gain insights from Internet-scale data at rest...”• “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data approaches with Apache Hadoop-based workloads.”• Lisenssihinta n. 24 000 € / vuosi• Ominaisuudet: http://www-01.ibm.com/software/data/infosphere/biginsights/features.html
  26. 26. SAP  HANA “Why wait for old-fashioned data analysis? Tap into huge volumes of detailed information as events unfold with the SAP HANA appliance - our new flexible, multipurpose, game-changing in-memory computing software.” Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika putosi 2-3 tunnista 4 minuuttiin. Lähde: Tietoviikko.fi
  27. 27. Big  Data  pilvipalveluna
  28. 28. MapReduce  ja  NoSQL  pilvessä EC2 S3 + DynamoDB
  29. 29. Amazon  ElasEc  MapReduce• Hadoop-­‐klusteri  palveluna• Ei  sitoutumista,  ei  kiinteitä  kustannuksia
  30. 30. Amazon  ElasEc  MapReduce  hinnatKäyttöönotto 0 €, ei sitoumuksia.
  31. 31. Amazon  DynamicDB• NoSQL-­‐2etokanta  palveluna• Ei  sitoutumista,  ei  kiinteitä  kustannuksia• Saatavilla  EU-­‐alueella  maaliskuusta  2012  alkaen
  32. 32. Amazon  DynamoDB  hinnatKäyttöönotto 0 €, ei sitoumuksia.
  33. 33. Google  BigQuery  ja  Cloud  SQL• Google  BigQuery • OLAP                      Online  Analy5cal  Processing • Tällä  hetkellä  (maaliskuu  2012)  vain  beta-­‐testaajille• Google  Cloud  SQL • Hosted  MySQL • OLTP                      Online  Transac5onal  Processing • Toimii  ainoastaan  App  Engine-­‐sovellusten  kanssa
  34. 34. Google  BigQuery  esimerkki Aineisto: Wikipedia Kysymys: “Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?” Aika: 7,6 sekuntia
  35. 35. KIITOS!
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×