Big	  Data28.01.2013Immo	  SaloEufris
Eufris• Perusteu	  vuonna	  2006• Koulutus-­‐	  ja	  konsultoin/palveluita,	  erikoistunut	    pilvipalveluihin• Yri7äjä:	...
Big	  Data:	  hype	  nousee!
Google	  Trends  Web 2.0           Big data  Social media  Cloud computing
Big	  Data:	  mitä	  se	  on?
Big	  Data-­‐määritelmiä"Big data technologies describe a new generation of technologies andarchitectures, designed to eco...
Gartnerin	  top	  10	  strategista	  teknologiaa	  20121. Media	  Tablets	  and	  Beyond2. Mobile-­‐Centric	  Applica/ons	...
Gartnerin	  top	  10	  strategista	  teknologiaa	  20131. Mobile	  Devices	  Ba7les2. Mobile	  Applica/ons	  and	  HTML53....
Big	  Data:	  datan	  määrä	  kasvaa
Pari	  yleistä	  kuvaa 2012       2015           2020
Mistä	  dataa	  oikein	  tulee?                                     Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com,...
Vaihtoehtoja	  on	  paljon
KäyFökokemuksiaHaasteellisinta big datassa on päästä alkuun.
Osaajapula	  uhkaa “There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018,...
Big	  Data:	  viitekehyksiä
Big	  Datan	  ABC• Analy/cs	  (analy2ikka)  • Data	  pitää	  jalostaa	  informaa2oksi,	  2edoksi	  ja	  ymmärrykseksi.	  V...
Big	  Datan	  kolme	  V-­‐kirjainta	  (3V)• Variety	  (vaihtelevuus)   • Dataa	  on	  strukturoitua	  ja	  strukturoimaton...
Big	  Data:	  Hadoop
Google	  Trends:	  Hadoop               Onko huomiarvon huippu saavutettu?
Indeed	  Trends:	  Hadoop	  työpaikat           Työpaikkojen tarjonta nousee nopeasti!
Computerworld.com 24.01.2013
Hadoop• Avoimen	  lähdekoodin	  Apache-­‐projek/,	  joka	  on	  ehkä	    tunnetuin	  yksi7äinen	  tuotenimi	  Big	  Data-­...
Hadoop	  MapReduce                                   DATA                      Node	  1.            Node	  2.             ...
Hadoop:	  arkkitehtuuri                 Master         Master              Task tracker   Task tracker              Job tr...
Mihin	  Hadoop	  parhaiten	  sopii?• Hadoop on klusteriarkkitehtuurin toteuttava ohjelmisto• Käyttökelpoinen kun...  • Nop...
Hadoopin	  sisarprojekRt• HBase• Hive• Pig• ZookeeperMitkä ihmeen sisarprojektit? Pelkkä Hadoop on sopimaton moniinkäyttöt...
Ketkä	  käyFävät	  Hadoopia?• Facebook• Walmart• eBay• Yahoo• Hadoop ei millään tavalla ole sidottu suurten yritysten käyt...
Esimerkki:	  Facebook   • Kaksi	  isoa	  klusteria:      • 1	  100	  kone7a	  (8	  800	  suori*nta,	  12	  PT	  tallennus*...
Hadoop-­‐ekosysteemi• Moni startup-yritys on rakentanut liiketoimintansa Hadoopin ympärille  • Cloudera  • Hortonworks  • ...
Big	  Data	  pilvipalveluna
Pilvipalvelut	  ja	  big	  dataKaksi ilmiötä, yksi tarina?
Hadoop-­‐pilvipalveluiden	  käyFöEdut                                       Riskit  •   Ei investointeja                  ...
Oma	  Hadoop-­‐klusteri	  pilvipalveluna• Välimuoto pilvipalveluna tarjottavalle klusterille (AWS EMR tai Microsoft Window...
Google	  Cloud	  ja	  Big	  Data
Google	  BigQuery• “Google	  BigQuery	  is	  a	  web	  service	  that	  lets	  you	  do	  interac2ve	  analysis	  of	  mas...
Google	  BigQuery	  esimerkki
Mihin	  Eufris	  on	  erikoistunut?     • Pilvipalvelut         • Amazon	  Web	  Services         • Google	  Cloud        ...
KIITOS!
Big Data -esitys, Arcada ammattikorkeakoulu
Upcoming SlideShare
Loading in...5
×

Big Data -esitys, Arcada ammattikorkeakoulu

425
-1

Published on

Big Data -esitys Arcada ammattikorkeakoulussa 28.01.2013.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
425
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Big Data -esitys, Arcada ammattikorkeakoulu

  1. 1. Big  Data28.01.2013Immo  SaloEufris
  2. 2. Eufris• Perusteu  vuonna  2006• Koulutus-­‐  ja  konsultoin/palveluita,  erikoistunut   pilvipalveluihin• Yri7äjä:  Immo  Salo • Kirjat • “Cloud  compu/ng  -­‐  palvelut  verkossa”,  WSOYPro  2010 • “Hyötyä  pilvipalveluista”,  Docendo  2012 • “Big  Data”,  Docendo  2013  (tulossa)www.eufris.fiwww.bigdata.fi
  3. 3. Big  Data:  hype  nousee!
  4. 4. Google  Trends Web 2.0 Big data Social media Cloud computing
  5. 5. Big  Data:  mitä  se  on?
  6. 6. Big  Data-­‐määritelmiä"Big data technologies describe a new generation of technologies andarchitectures, designed to economically extract value from very largevolumes of a wide variety of data, by enabling high-velocity capture,discovery, and/or analysis"IDC"Big Data is a technology that helps extract value from the digital universe.”IDC"Techniques and technologies that make handling data at extreme scaleeconomical."Forrester
  7. 7. Gartnerin  top  10  strategista  teknologiaa  20121. Media  Tablets  and  Beyond2. Mobile-­‐Centric  Applica/ons  and  Interfaces3. Contextual  and  Social  User  Experience4. Internet  of  Things5. App  Stores  and  Marketplaces6. Next-­‐Genera/on  Analy/cs7. Big  Data8. In-­‐Memory  Compu/ng9. Extreme  Low-­‐Energy  Servers10.Cloud  Compu/ng
  8. 8. Gartnerin  top  10  strategista  teknologiaa  20131. Mobile  Devices  Ba7les2. Mobile  Applica/ons  and  HTML53. Personal  Cloud4. Internet  of  Things5. Hybrid  IT  and  Cloud  Compu/ng6. Strategic  Big  Data7. Ac/onable  Analy/cs8. Mainstream  In-­‐Memory  Compu/ng9. Integrated  Ecosystems10.  Enterprise  App  Stores
  9. 9. Big  Data:  datan  määrä  kasvaa
  10. 10. Pari  yleistä  kuvaa 2012 2015 2020
  11. 11. Mistä  dataa  oikein  tulee? Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
  12. 12. Vaihtoehtoja  on  paljon
  13. 13. KäyFökokemuksiaHaasteellisinta big datassa on päästä alkuun.
  14. 14. Osaajapula  uhkaa “There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.” Lähde: McKinsey
  15. 15. Big  Data:  viitekehyksiä
  16. 16. Big  Datan  ABC• Analy/cs  (analy2ikka) • Data  pitää  jalostaa  informaa2oksi,  2edoksi  ja  ymmärrykseksi.  Visualisoin2,   konkre2soin2,  ennusteiden  tekeminen,  tunnuslukujen  laskeminen,  korrelaa2oiden   hakeminen...• Bandwidth  (2etoliikenne) • Suurten  2etomäärien  liiku=elu  on  yhä  useammin  pullonkaula.  Lähtökohtainen  päätös   siitä,  missä  2etoja  säilytetään  ja  missä  niitä  prosessoidaan  on  yhtä  merki=ävä  kuin   käytetyt  teknologiat  ja  analyysin  hyödyntämiskohteet.• Content  (sisältö) • Edelleen  suuri  osa  2edosta  säilytetään,  mu=a  jätetään  käy=ämä=ä  tai  vielä   pahempaa:  heitetään  hukkaan  ilman  ensimmäistäkään  analyysia. Lähde: Netapp.com
  17. 17. Big  Datan  kolme  V-­‐kirjainta  (3V)• Variety  (vaihtelevuus) • Dataa  on  strukturoitua  ja  strukturoimatonta.  Molempia  pitää  pystyä  hyödyntämään.• Velocity  (vauh2) • Datan  määrä  kasvaa  vauhdilla  ja  sitä  tulee  lukema=omista  lähteistä.  Lähes   reaaliaikaisen  analyysi  tavoi=eena.• Volume  (voluumi) • Data  pitää  pystyä  analysoimaan  ja  säily=ämään  myöhempää  käy=öä  varten. Lähde: Netapp.com
  18. 18. Big  Data:  Hadoop
  19. 19. Google  Trends:  Hadoop Onko huomiarvon huippu saavutettu?
  20. 20. Indeed  Trends:  Hadoop  työpaikat Työpaikkojen tarjonta nousee nopeasti!
  21. 21. Computerworld.com 24.01.2013
  22. 22. Hadoop• Avoimen  lähdekoodin  Apache-­‐projek/,  joka  on  ehkä   tunnetuin  yksi7äinen  tuotenimi  Big  Data-­‐tarjoomista• Tarkoite7u  suurten  datamäärien  hajaute7uun  prosessoin/in• Asennetaan  palvelinklusteriin,  joka  on  vikasietoinen  eli   yksi7äisen  palvelimen  vikaantuminen  ei  hai7aa• Kolme  alaprojek/a 1. Hadoop  Common 2. Hadoop  Distributed  Filesystem 3. Hadoop  MapReduce
  23. 23. Hadoop  MapReduce DATA Node  1. Node  2. “raakadata” “raakadata” Map Map “välitulokset” “välitulokset” Sort and shuffle Reduce Reduce HDFS HDFS Node  1. Node  2.
  24. 24. Hadoop:  arkkitehtuuri Master Master Task tracker Task tracker Job trackerMapReduce HDFS Name node Data node Data node
  25. 25. Mihin  Hadoop  parhaiten  sopii?• Hadoop on klusteriarkkitehtuurin toteuttava ohjelmisto• Käyttökelpoinen kun... • Nopeus on valttia • Tarvitaan skaalautuvuutta! • Vikasietoisuus on arvokasta • Analysoitavaa dataa on paljon • Laitteistoriippumattomuus(?) kiinnostaa • Nopeasti kehittyvä ekosysteemi koetaan hyödylliseksi
  26. 26. Hadoopin  sisarprojekRt• HBase• Hive• Pig• ZookeeperMitkä ihmeen sisarprojektit? Pelkkä Hadoop on sopimaton moniinkäyttötarkoituksiin ja hyödyntää huonosti olemassa olevaaosaamista. Sisarprojektit parantavat hallittavuutta, lisäävättoiminnallisuuksia ja helpottavat käyttöä.
  27. 27. Ketkä  käyFävät  Hadoopia?• Facebook• Walmart• eBay• Yahoo• Hadoop ei millään tavalla ole sidottu suurten yritysten käyttöön!• http://wiki.apache.org/hadoop/PoweredBy
  28. 28. Esimerkki:  Facebook • Kaksi  isoa  klusteria: • 1  100  kone7a  (8  800  suori*nta,  12  PT  tallennus*laa) • 300  kone7a  (2  400  suori*nta,  3  PT  tallennus*laa) Facebookilla  on  n.  miljardi  käyäjää.
  29. 29. Hadoop-­‐ekosysteemi• Moni startup-yritys on rakentanut liiketoimintansa Hadoopin ympärille • Cloudera • Hortonworks • MapR• Hadoop on mukana suuressa osassa big data -tuotteita ja palveluita • Oracle Big Data Appliance (Cloudera) • Teradata Aster Big Analytics Appliance (Hortonworks) • IBM InfoSphere BigInsights (Cloudera) • Microsoft Azure Hadoop (HDInsight) (Hortonworks) • Amazon Web Services EMR (MapR)
  30. 30. Big  Data  pilvipalveluna
  31. 31. Pilvipalvelut  ja  big  dataKaksi ilmiötä, yksi tarina?
  32. 32. Hadoop-­‐pilvipalveluiden  käyFöEdut Riskit • Ei investointeja • Tietoturva • Nopea käyttöönotto • Luottamus • Valmis konfiguraatio • SLA • Mahdolliset rajapinnat muihin • Latenssi palveluihin (esim. S3-tuki) • Mahdollisuus palveluehto- ja muihin • Mahdollisuus käyttää sopimuksellisiin muutoksiin analysointivoimaa myös muuhun kuin • Palvelukatkokset ja muut tekniset organisaation omaan dataan ongelmat • Mahdolliset lisäarvoa tuottavat • Rajoitettu kustomoitavuus lisäpalvelut
  33. 33. Oma  Hadoop-­‐klusteri  pilvipalveluna• Välimuoto pilvipalveluna tarjottavalle klusterille (AWS EMR tai Microsoft Windows Azure) • Rakennetaan oma klusteri pilvipalveluna saatavilla oleville palvelimille Edut Riskit • Kts. edellinen kalvo • Kts. edellinen kalvo Haasteena konfigurointi ja ylläpito (kuten omassakin klusterissa, mutta pahempi)
  34. 34. Google  Cloud  ja  Big  Data
  35. 35. Google  BigQuery• “Google  BigQuery  is  a  web  service  that  lets  you  do  interac2ve  analysis  of  massive  datasets —up  to  billions  of  rows.  Scalable  and  easy  to  use,  BigQuery  lets  developers  and  businesses   tap  into  powerful  data  analy2cs  on  demand.” Tarjolla • Selainkäy7ölii7ymä • Browser  Tool • Komentorivityökalu • bq  command-­‐line  tool • API
  36. 36. Google  BigQuery  esimerkki
  37. 37. Mihin  Eufris  on  erikoistunut? • Pilvipalvelut • Amazon  Web  Services • Google  Cloud • Salesforce.com • Big  Data • Hadoop
  38. 38. KIITOS!
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×