Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Hadoop
Hadoopin lyhyt historia
Vuosi Keskeinen teema
2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonett...
Innoittajana Google
Googlen
julkaisu Vuosi
Avoimen
lähdekoodin
projekti Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2004 H...
Spanner
“Spanner is Google's scalable, multi-version, globally-distributed, and
synchronously-replicated database. It is t...
Hadoopin asema Big data -ilmiössä
Hadoop
Tiedon määrä
Tiedonrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the U...
Hadoop Suomessa
Käyttäjiä
v. 2015 esim.
Käyttäjiä lähitulevaisuudessa
Rovio
Sanoma
Huawei
Vähittäiskauppa
Teollisuus
Telek...
Hadoop-työpaikat
Työpaikkailmoitukset, joissa sana “Hadoop” 02/2015 Indeed.com
Taas nopeassa
nousussa vuoden
2015 alusta l...
Mitä Hadoop tekee?
Klusterin.
● Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.
Klusteri?
Klusteri = joukko toisiinsa kytkettyjä palvelimia, jotka
suorittavat annettua tehtävää hajautettuna, mutta näkyv...
Commodity hardware?
Yleisesti saatavilla olevista
komponenteista koottuja palvelimia.
Ei kallista palvelinrautaa.
CPU: 2 x...
Laskentateho vai tallennustila?
Laskentaoptimoitu
Matalin
virrankulutus
Laskentapainotteinen Tasapainoinen:
enemmän tehoa ...
Miksi Hadoop kiinnostaa?
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehok...
Hadoop - komponentit
MapReduce
(hajautettu laskenta/analytiikka)
HDFS
(hajautettu tiedostojärjestelmä)
YARN
(Yet Another R...
Hadoopin ilmeiset edut
Ohjelmoijan/käyttäjän ei tarvitse välittää:
● Mille palvelimille data on tallennettu
● Datan varmis...
Hadoop versiosta 1 versioon 2
Lähde: Hortonworks
Analytiikan siiloutuminen
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investigati...
Hadoopin lähtökohta alunperin
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investi...
Integraatiot ja yhteiskäyttö haaste
Siilo 1
Analytics
Batch
processing
Siilo 2 Siilo 3
Point queries
Interactive
reporting...
Tavoite: yksi alusta, Hadoop
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investig...
Hadoop-klusteri
Analysis (Excel, SAS, SAP, Tableau, Revolution, Talend, Datameer...)
Linear Scale Compute & HDFS Storage
O...
Kokeile jakeluja
Ilmainen kokeilu auttaa vertailemaan
Cloudera
QuickStart VMs for CDH 5.3.x
(VMWare, KVM, Virtualbox)
http://www.cloudera.com/content/cloudera/en/downloads/quic...
Hortonworks
HDP 2.2 on Sandbox
(VMWare, Virtualbox)
http://hortonworks.com/hdp/downloads/
MapR
MapR Sandbox (M7)
(VMWare, Virtualbox)
https://www.mapr.com/products/mapr-sandbox-hadoop/download
IBM InfoSphere BigInsights
IBM InfoSphere BigInsights Quick Start Edition
(Linux, Windows)
http://www.ibm.com/developerwor...
Microsoft HDInsight
Windows Azure HDInsight Emulator
(Windows)
http://azure.microsoft.com/en-us/documentation/articles/hdi...
Pivotal HD
Pivotal HD 2.1.0 Single Node VM
(Linux)
https://network.pivotal.io/products/pivotal-hd
Kiitos!
Immo Salo
immo.salo@gmail.com
@immon
fi.linkedin.com/in/immosalo
+358 41 368 1048
Upcoming SlideShare
Loading in …5
×

Hadoop

863 views

Published on

Hadoop ylei

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Hadoop

  1. 1. Hadoop
  2. 2. Hadoopin lyhyt historia Vuosi Keskeinen teema 2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch 2007 Projekti julkistetaan v. 0.14 2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan 2009 Versio 0.20 julkistetaan 2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin) 2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista 2012 Teema: nopeus, mm. Cloudera Impala julkistetaan 2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan 2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm) 2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta
  3. 3. Innoittajana Google Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen? GFS ja MapReduce 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt (SQL) Spanner 2012 ? - Transaktiot
  4. 4. Spanner “Spanner is Google's scalable, multi-version, globally-distributed, and synchronously-replicated database. It is the first system to distribute data at global scale and support externally-consistent distributed transactions. This paper describes how Spanner is structured, its feature set, the rationale underlying various design decisions, and a novel time API that exposes clock uncertainty. This API and its implementation are critical to supporting external consistency and a variety of powerful features: non-blocking reads in the past, lock-free read-only transactions, and atomic schema changes, across all of Spanner.” http://research.google.com/archive/spanner.html
  5. 5. Hadoopin asema Big data -ilmiössä Hadoop Tiedon määrä Tiedonrakenteisuus 2 Tb1 Gb 20 Tb 200 Tb Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees. McKinsey 2011 By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop. Gartner 2013
  6. 6. Hadoop Suomessa Käyttäjiä v. 2015 esim. Käyttäjiä lähitulevaisuudessa Rovio Sanoma Huawei Vähittäiskauppa Teollisuus Telekommunikaatio Media Palvelualat Fonecta
  7. 7. Hadoop-työpaikat Työpaikkailmoitukset, joissa sana “Hadoop” 02/2015 Indeed.com Taas nopeassa nousussa vuoden 2015 alusta lähtien
  8. 8. Mitä Hadoop tekee? Klusterin. ● Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.
  9. 9. Klusteri? Klusteri = joukko toisiinsa kytkettyjä palvelimia, jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
  10. 10. Commodity hardware? Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa. CPU: 2 x 4/6/8 -core Mem: 48Gb+ Disk: 12 x 2-3Tb Net: 1Gb+ Ethernet ~ 5 000 €
  11. 11. Laskentateho vai tallennustila? Laskentaoptimoitu Matalin virrankulutus Laskentapainotteinen Tasapainoinen: enemmän tehoa / node Tallennukseen optimoitu CPU Tallennuskapasiteetti Tallennuspainotteinen
  12. 12. Miksi Hadoop kiinnostaa? Miksi haluaisin Hadoop-klusterin? - edullista tallennustilaa (mikä vaan x86-palvelin käy) - tehokasta prosessointia (rinnakkaisuus) - toimintavarmuutta (moninkertainen tallennus) - skaalautuvuutta (klusteria helppo laajentaa) - ekosysteemi, lisäosia ja laajennoksia!
  13. 13. Hadoop - komponentit MapReduce (hajautettu laskenta/analytiikka) HDFS (hajautettu tiedostojärjestelmä) YARN (Yet Another Resource Negotiator) Common utilities
  14. 14. Hadoopin ilmeiset edut Ohjelmoijan/käyttäjän ei tarvitse välittää: ● Mille palvelimille data on tallennettu ● Datan varmistamisesta ● Koodin hajauttamisesta ● Skaalautuvuudesta
  15. 15. Hadoop versiosta 1 versioon 2 Lähde: Hortonworks
  16. 16. Analytiikan siiloutuminen Analytics Batch processing Point queries Interactive reporting Operational analytics Investigative analytics Data stream processing SQL-on-Hadoop Engines Explained, R20 Consultancy
  17. 17. Hadoopin lähtökohta alunperin Analytics Batch processing Point queries Interactive reporting Operational analytics Investigative analytics Data stream processing SQL-on-Hadoop Engines Explained, R20 Consultancy
  18. 18. Integraatiot ja yhteiskäyttö haaste Siilo 1 Analytics Batch processing Siilo 2 Siilo 3 Point queries Interactive reporting Siilo 4 Siilo 5 Operational analytics Investigative analytics Siilo 6 Data stream processing Siilo 7 SQL-on-Hadoop Engines Explained, R20 Consultancy
  19. 19. Tavoite: yksi alusta, Hadoop Analytics Batch processing Point queries Interactive reporting Operational analytics Investigative analytics Data stream processing Yksi data-alusta (Data Management Platform) DW (HDFS?) SQL-on-Hadoop Engines Explained, R20 Consultancy
  20. 20. Hadoop-klusteri Analysis (Excel, SAS, SAP, Tableau, Revolution, Talend, Datameer...) Linear Scale Compute & HDFS Storage Operations (Ambari) Security (Knox, etc.) Ingest Multitenant Processing: YARN (Hadoop Operating System) Batch MapReduce Script Pig SQL Hive Online HBase Accumulo Real-time Storm In-memory Spark Others...
  21. 21. Kokeile jakeluja Ilmainen kokeilu auttaa vertailemaan
  22. 22. Cloudera QuickStart VMs for CDH 5.3.x (VMWare, KVM, Virtualbox) http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x. html
  23. 23. Hortonworks HDP 2.2 on Sandbox (VMWare, Virtualbox) http://hortonworks.com/hdp/downloads/
  24. 24. MapR MapR Sandbox (M7) (VMWare, Virtualbox) https://www.mapr.com/products/mapr-sandbox-hadoop/download
  25. 25. IBM InfoSphere BigInsights IBM InfoSphere BigInsights Quick Start Edition (Linux, Windows) http://www.ibm.com/developerworks/downloads/im/biginsightsquick/
  26. 26. Microsoft HDInsight Windows Azure HDInsight Emulator (Windows) http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started- emulator/#install
  27. 27. Pivotal HD Pivotal HD 2.1.0 Single Node VM (Linux) https://network.pivotal.io/products/pivotal-hd
  28. 28. Kiitos! Immo Salo immo.salo@gmail.com @immon fi.linkedin.com/in/immosalo +358 41 368 1048

×