Mitä on big data, Aamiaistilaisuus 13.03.2012
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Mitä on big data, Aamiaistilaisuus 13.03.2012

  • 1,159 views
Uploaded on

13.03.2012 pidetty aamiaistilaisuus Big Datasta.

13.03.2012 pidetty aamiaistilaisuus Big Datasta.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,159
On Slideshare
1,119
From Embeds
40
Number of Embeds
2

Actions

Shares
Downloads
3
Comments
0
Likes
0

Embeds 40

http://www.bigdata.fi 36
http://www.linkedin.com 4

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Mitä  on  Big  Data?13.03.2012Immo  SaloEufris
  • 2. Big  Data:  yleisesi>ely
  • 3. Gartnerin  top  10  strategista  teknologiaa1. Media  Tablets  and  Beyond2. Mobile-­‐Centric  Applica9ons  and  Interfaces3. Contextual  and  Social  User  Experience4. Internet  of  Things5. App  Stores  and  Marketplaces6. Next-­‐Genera9on  Analy9cs7. Big  Data8. In-­‐Memory  Compu9ng9. Extreme  Low-­‐Energy  Servers10.Cloud  Compu9ng
  • 4. Big  Data  ja  Cloud  CompuEng• Vuodet  2009-­‐2011  olivat  ak2ivista  Cloud  Compu2ng-­‐ markkinoin2a• Vuonna  2012  fokus  on  siirtynyt  Big  Dataan• Osa  toimijoista  on  samoja  ja  osa  tarjoomista  en2siä   uudelleen  nimeAyinä Cloud Envy Big Data Envy
  • 5. Pari  yleistä  kuvaa 2012 2015 2020
  • 6. Mitä  on  Big  Data?• Big  Data  on  kaAokäsite  joukolle  teknologioita Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)
  • 7. Mitä  on  Big  Data?• Se  on  markkinoin2termi,  aivan  kuten  Cloud  Compu2ng Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com
  • 8. Big  Data-­‐määritelmiä"Big data technologies describe a new generation of technologies andarchitectures, designed to economically extract value from very largevolumes of a wide variety of data, by enabling high-velocity capture,discovery, and/or analysis"IDC"Big Data is a technlogy that helps extract value from the digital universe.”IDC"Techniques and technologies that make handling data at extreme scaleeconomical."Forrester
  • 9. Miksi  Big  Datan  pitäisi  kiinnostaa?• McKinseyn  ennustus: • $250  mrd/vuosi  säästöpoten5aali  EU-­‐alueen  julkisella  sektorilla • $600  mrd/vuosi  poten5aalinen  taloudellinen  lisäarvopoten5aali   paikka5etojen  hyödyntämisessä• Tiedon  määrä  kasvaa  vauhdilla • Datan  määrä  50-­‐kertaistuu(!)  seuraavan  kymmenen  vuoden   aikana  maailmassa
  • 10. Mistä  dataa  oikein  tulee? Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
  • 11. Osaajapula  uhkaa “There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.” Lähde: McKinsey
  • 12. Big  Data:  viitekehyksiä
  • 13. Big  Datan  ABC• Analy2cs  (analy5ikka) • Data  pitää  jalostaa  informaa2oksi,  2edoksi  ja  ymmärrykseksi.  Visualisoin2,   konkre2soin2,  ennusteiden  tekeminen,  tunnuslukujen  laskeminen,  korrelaa2oiden   hakeminen...• Bandwidth  (5etoliikenne) • Suurten  2etomäärien  liikuAelu  on  yhä  useammin  pullonkaula.  Lähtökohtainen  päätös   siitä,  missä  2etoja  säilytetään  ja  missä  niitä  prosessoidaan  on  yhtä  merkiAävä  kuin   käytetyt  teknologiat  ja  analyysin  hyödyntämiskohteet.• Content  (sisältö) • Edelleen  suuri  osa  2edosta  säilytetään,  muAa  jätetään  käyAämäAä  tai  vielä   pahempaa:  heitetään  hukkaan  ilman  ensimmäistäkään  analyysia. Lähde: Netapp.com
  • 14. Big  Datan  kolme  V-­‐kirjainta  (3V)• Variety  (vaihtelevuus) • Dataa  on  strukturoitua  ja  strukturoimatonta.  Molempia  pitää  pystyä  hyödyntämään.• Velocity  (vauh5) • Datan  määrä  kasvaa  vauhdilla  ja  sitä  tulee  lukemaAomista  lähteistä.  Lähes   reaaliaikaisen  analyysi  tavoiAeena.• Volume  (voluumi) • Data  pitää  pystyä  analysoimaan  ja  säilyAämään  myöhempää  käyAöä  varten. Lähde: Netapp.com
  • 15. Kaksi  V-­‐kirjainta  lisää  (3V+2V  =  5V)• Viscosity  (viskositeeD) • MiAaa  sitä,  miten  nopeas2  datasta  saadaan  jalosteAua  jotain  liiketoiminnalle   hyödyllistä.• Virality  (viraalisuus) • Kuvaa  2edon  siirtymisen  nopeuAa  ihmiseltä  toiselle  (viraalisuuAa)  organisaa2on  sisällä   tai  sen  toimintaverkostossa. Lähde: Netapp.com
  • 16. Big  Data:  käsi>eitä
  • 17. Hadoop• Avoimen  lähdekoodin  Apache-­‐projek2,  joka  on  ehkä   tunnetuin  yksiAäinen  tuotenimi  Big  Data-­‐tarjoomista• TarkoiteAu  suurten  datamäärien  hajauteAuun  prosessoin2in• Asennetaan  palvelinklusteriin,  joka  on  vikasietoinen  eli   yksiAäisen  palvelimen  vikaantuminen  ei  haiAaa• Kolme  alaprojek2a 1. Hadoop  Common 2. Hadoop  Distributed  Filesystem 3. Hadoop  MapReduce
  • 18. Esimerkki:  Facebook• Facebook  on  yksi  suurista  Hadoopin  käyAäjistä.  KäyAäjien   vies2en  osalta  HBaseen  yritys  siirtyi  täysin  kesällä  2011.   Luvut  ovat  massiivisia: • 8  miljardia(!)  vies9ä  päivässä • yli  75  miljardia  luku-­‐/kirjoitustapahtumaa  päivässä • ruuhka-­‐aikoina  1.5  miljoonaa  luku-­‐/kirjoitustapahtumaa   sekunnissa(!) • 2  petatavua  online  dataa  (ja  6  petatavua  varmuuskopioita) • datan  määrä  kasvaa  250  teratavua  kuukaudessa
  • 19. MapReduce• Googlen  vuonna  2004  esiAelemä  laskentamalli 2 2 Map 2 Reduce 3 4 1 5 2 3
  • 20. NoSQL• Määritelmä  1: “Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. The original intention has been modern web-scale databases. The movement began early 2009 and is growing rapidly. Often more characteristics apply as: schema-free, easy replication support, simple API, eventually consistent, a huge data amount, and more.” Nosql-database.org
  • 21. NoSQL• Määritelmä  2: “In computing, NoSQL (sometimes expanded to "not only SQL") is a broad class of database management systems that differ from the classic model of the relational database management system (RDBMS) in some significant ways. These data stores may not require fixed table schemas, usually avoid join operations, and typically scale horizontally.” Wikipedia.org
  • 22. Big  Data  tuo>eita
  • 23. Oracle  Big  Data  Appliance• Hinta  n.  500  000  $18 Oracle Sun Servers • 864 GB main memory; • 216 CPU cores; • 648 TB of raw disk storage; • 40 Gb/s InfiniBand connectivity between nodes and engineered systems; • 10 Gb/s Ethernet connectivity.
  • 24. Autonomy  IDOL  10"For far too long, organizations have confined structured data to relational databasesand unstructured data to simplistic keyword matching technologies..."“IDOL 10 brings these worlds together, allowing organizations to automaticallyprocess, understand, and act on 100 percent of their data, in real-time. The results willbe dramatic, as businesses can develop entirely new applications that explore therichness and color of Human Information that live in unstructured, semi-structured,and structured forms.”Hinta?
  • 25. IBM  InfoSphere  BigInsights• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is inspired by, and is compatible with, open source Apache Hadoop and used to store, manage, and gain insights from Internet-scale data at rest...”• “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data approaches with Apache Hadoop-based workloads.”• Lisenssihinta n. 24 000 € / vuosi• Ominaisuudet: http://www-01.ibm.com/software/data/infosphere/biginsights/features.html
  • 26. SAP  HANA “Why wait for old-fashioned data analysis? Tap into huge volumes of detailed information as events unfold with the SAP HANA appliance - our new flexible, multipurpose, game-changing in-memory computing software.” Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika putosi 2-3 tunnista 4 minuuttiin. Lähde: Tietoviikko.fi
  • 27. Big  Data  pilvipalveluna
  • 28. MapReduce  ja  NoSQL  pilvessä EC2 S3 + DynamoDB
  • 29. Amazon  ElasEc  MapReduce• Hadoop-­‐klusteri  palveluna• Ei  sitoutumista,  ei  kiinteitä  kustannuksia
  • 30. Amazon  ElasEc  MapReduce  hinnatKäyttöönotto 0 €, ei sitoumuksia.
  • 31. Amazon  DynamicDB• NoSQL-­‐2etokanta  palveluna• Ei  sitoutumista,  ei  kiinteitä  kustannuksia• Saatavilla  EU-­‐alueella  maaliskuusta  2012  alkaen
  • 32. Amazon  DynamoDB  hinnatKäyttöönotto 0 €, ei sitoumuksia.
  • 33. Google  BigQuery  ja  Cloud  SQL• Google  BigQuery • OLAP                      Online  Analy5cal  Processing • Tällä  hetkellä  (maaliskuu  2012)  vain  beta-­‐testaajille• Google  Cloud  SQL • Hosted  MySQL • OLTP                      Online  Transac5onal  Processing • Toimii  ainoastaan  App  Engine-­‐sovellusten  kanssa
  • 34. Google  BigQuery  esimerkki Aineisto: Wikipedia Kysymys: “Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?” Aika: 7,6 sekuntia
  • 35. KIITOS!