Hadoop
Hadoopin lyhyt historia
Vuosi Keskeinen teema
2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch
2007 Projekti julkistetaan v. 0.14
2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan
2009 Versio 0.20 julkistetaan
2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin)
2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista
2012 Teema: nopeus, mm. Cloudera Impala julkistetaan
2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan
2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm)
2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta
Innoittajana Google
Googlen
julkaisu Vuosi
Avoimen
lähdekoodin
projekti Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2004 Hadoop 2006 Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt
(SQL)
Spanner 2012 ? - Transaktiot
Spanner
“Spanner is Google's scalable, multi-version, globally-distributed, and
synchronously-replicated database. It is the first system to distribute data at
global scale and support externally-consistent distributed transactions. This
paper describes how Spanner is structured, its feature set, the rationale
underlying various design decisions, and a novel time API that exposes clock
uncertainty. This API and its implementation are critical to supporting external
consistency and a variety of powerful features: non-blocking reads in the past,
lock-free read-only transactions, and atomic schema changes, across all of
Spanner.”
http://research.google.com/archive/spanner.html
Hadoopin asema Big data -ilmiössä
Hadoop
Tiedon määrä
Tiedonrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US economy had
at least an average of 200 terabytes of
stored data per company with more than
1,000 employees.
McKinsey 2011
By 2015, 65 percent of packaged analytic
applications with advanced analytics will
come embedded with Hadoop.
Gartner 2013
Hadoop Suomessa
Käyttäjiä
v. 2015 esim.
Käyttäjiä lähitulevaisuudessa
Rovio
Sanoma
Huawei
Vähittäiskauppa
Teollisuus
Telekommunikaatio
Media
Palvelualat
Fonecta
Hadoop-työpaikat
Työpaikkailmoitukset, joissa sana “Hadoop” 02/2015 Indeed.com
Taas nopeassa
nousussa vuoden
2015 alusta lähtien
Mitä Hadoop tekee?
Klusterin.
● Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.
Klusteri?
Klusteri = joukko toisiinsa kytkettyjä palvelimia, jotka
suorittavat annettua tehtävää hajautettuna, mutta näkyvät
käyttäjälle yhtenä järjestelmänä
Commodity hardware?
Yleisesti saatavilla olevista
komponenteista koottuja palvelimia.
Ei kallista palvelinrautaa.
CPU: 2 x 4/6/8 -core
Mem: 48Gb+
Disk: 12 x 2-3Tb
Net: 1Gb+ Ethernet
~ 5 000 €
Laskentateho vai tallennustila?
Laskentaoptimoitu
Matalin
virrankulutus
Laskentapainotteinen Tasapainoinen:
enemmän tehoa / node
Tallennukseen
optimoitu
CPU
Tallennuskapasiteetti
Tallennuspainotteinen
Miksi Hadoop kiinnostaa?
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemi, lisäosia ja laajennoksia!
Hadoop - komponentit
MapReduce
(hajautettu laskenta/analytiikka)
HDFS
(hajautettu tiedostojärjestelmä)
YARN
(Yet Another Resource Negotiator)
Common utilities
Hadoopin ilmeiset edut
Ohjelmoijan/käyttäjän ei tarvitse välittää:
● Mille palvelimille data on tallennettu
● Datan varmistamisesta
● Koodin hajauttamisesta
● Skaalautuvuudesta
Hadoop versiosta 1 versioon 2
Lähde: Hortonworks
Analytiikan siiloutuminen
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investigative
analytics
Data stream
processing
SQL-on-Hadoop Engines Explained, R20 Consultancy
Hadoopin lähtökohta alunperin
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investigative
analytics
Data stream
processing
SQL-on-Hadoop Engines Explained, R20 Consultancy
Integraatiot ja yhteiskäyttö haaste
Siilo 1
Analytics
Batch
processing
Siilo 2 Siilo 3
Point queries
Interactive
reporting
Siilo 4 Siilo 5
Operational
analytics
Investigative
analytics
Siilo 6
Data stream
processing
Siilo 7
SQL-on-Hadoop Engines Explained, R20 Consultancy
Tavoite: yksi alusta, Hadoop
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investigative
analytics
Data stream
processing
Yksi data-alusta (Data Management Platform)
DW
(HDFS?)
SQL-on-Hadoop Engines Explained, R20 Consultancy
Hadoop-klusteri
Analysis (Excel, SAS, SAP, Tableau, Revolution, Talend, Datameer...)
Linear Scale Compute & HDFS Storage
Operations (Ambari)
Security (Knox, etc.)
Ingest
Multitenant Processing: YARN (Hadoop Operating System)
Batch
MapReduce
Script
Pig
SQL
Hive
Online
HBase
Accumulo
Real-time
Storm
In-memory
Spark
Others...
Kokeile jakeluja
Ilmainen kokeilu auttaa vertailemaan
Cloudera
QuickStart VMs for CDH 5.3.x
(VMWare, KVM, Virtualbox)
http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.
html
Hortonworks
HDP 2.2 on Sandbox
(VMWare, Virtualbox)
http://hortonworks.com/hdp/downloads/
MapR
MapR Sandbox (M7)
(VMWare, Virtualbox)
https://www.mapr.com/products/mapr-sandbox-hadoop/download
IBM InfoSphere BigInsights
IBM InfoSphere BigInsights Quick Start Edition
(Linux, Windows)
http://www.ibm.com/developerworks/downloads/im/biginsightsquick/
Microsoft HDInsight
Windows Azure HDInsight Emulator
(Windows)
http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started-
emulator/#install
Pivotal HD
Pivotal HD 2.1.0 Single Node VM
(Linux)
https://network.pivotal.io/products/pivotal-hd
Kiitos!
Immo Salo
immo.salo@gmail.com
@immon
fi.linkedin.com/in/immosalo
+358 41 368 1048

Hadoop

  • 1.
  • 2.
    Hadoopin lyhyt historia VuosiKeskeinen teema 2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch 2007 Projekti julkistetaan v. 0.14 2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan 2009 Versio 0.20 julkistetaan 2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin) 2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista 2012 Teema: nopeus, mm. Cloudera Impala julkistetaan 2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan 2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm) 2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta
  • 3.
    Innoittajana Google Googlen julkaisu Vuosi Avoimen lähdekoodin projektiVuosi Mihin tarkoitukseen? GFS ja MapReduce 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt (SQL) Spanner 2012 ? - Transaktiot
  • 4.
    Spanner “Spanner is Google'sscalable, multi-version, globally-distributed, and synchronously-replicated database. It is the first system to distribute data at global scale and support externally-consistent distributed transactions. This paper describes how Spanner is structured, its feature set, the rationale underlying various design decisions, and a novel time API that exposes clock uncertainty. This API and its implementation are critical to supporting external consistency and a variety of powerful features: non-blocking reads in the past, lock-free read-only transactions, and atomic schema changes, across all of Spanner.” http://research.google.com/archive/spanner.html
  • 5.
    Hadoopin asema Bigdata -ilmiössä Hadoop Tiedon määrä Tiedonrakenteisuus 2 Tb1 Gb 20 Tb 200 Tb Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees. McKinsey 2011 By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop. Gartner 2013
  • 6.
    Hadoop Suomessa Käyttäjiä v. 2015esim. Käyttäjiä lähitulevaisuudessa Rovio Sanoma Huawei Vähittäiskauppa Teollisuus Telekommunikaatio Media Palvelualat Fonecta
  • 7.
    Hadoop-työpaikat Työpaikkailmoitukset, joissa sana“Hadoop” 02/2015 Indeed.com Taas nopeassa nousussa vuoden 2015 alusta lähtien
  • 8.
    Mitä Hadoop tekee? Klusterin. ●Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.
  • 9.
    Klusteri? Klusteri = joukkotoisiinsa kytkettyjä palvelimia, jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
  • 10.
    Commodity hardware? Yleisesti saatavillaolevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa. CPU: 2 x 4/6/8 -core Mem: 48Gb+ Disk: 12 x 2-3Tb Net: 1Gb+ Ethernet ~ 5 000 €
  • 11.
    Laskentateho vai tallennustila? Laskentaoptimoitu Matalin virrankulutus LaskentapainotteinenTasapainoinen: enemmän tehoa / node Tallennukseen optimoitu CPU Tallennuskapasiteetti Tallennuspainotteinen
  • 12.
    Miksi Hadoop kiinnostaa? Miksihaluaisin Hadoop-klusterin? - edullista tallennustilaa (mikä vaan x86-palvelin käy) - tehokasta prosessointia (rinnakkaisuus) - toimintavarmuutta (moninkertainen tallennus) - skaalautuvuutta (klusteria helppo laajentaa) - ekosysteemi, lisäosia ja laajennoksia!
  • 13.
    Hadoop - komponentit MapReduce (hajautettulaskenta/analytiikka) HDFS (hajautettu tiedostojärjestelmä) YARN (Yet Another Resource Negotiator) Common utilities
  • 14.
    Hadoopin ilmeiset edut Ohjelmoijan/käyttäjänei tarvitse välittää: ● Mille palvelimille data on tallennettu ● Datan varmistamisesta ● Koodin hajauttamisesta ● Skaalautuvuudesta
  • 15.
    Hadoop versiosta 1versioon 2 Lähde: Hortonworks
  • 16.
  • 17.
    Hadoopin lähtökohta alunperin Analytics Batch processing Pointqueries Interactive reporting Operational analytics Investigative analytics Data stream processing SQL-on-Hadoop Engines Explained, R20 Consultancy
  • 18.
    Integraatiot ja yhteiskäyttöhaaste Siilo 1 Analytics Batch processing Siilo 2 Siilo 3 Point queries Interactive reporting Siilo 4 Siilo 5 Operational analytics Investigative analytics Siilo 6 Data stream processing Siilo 7 SQL-on-Hadoop Engines Explained, R20 Consultancy
  • 19.
    Tavoite: yksi alusta,Hadoop Analytics Batch processing Point queries Interactive reporting Operational analytics Investigative analytics Data stream processing Yksi data-alusta (Data Management Platform) DW (HDFS?) SQL-on-Hadoop Engines Explained, R20 Consultancy
  • 20.
    Hadoop-klusteri Analysis (Excel, SAS,SAP, Tableau, Revolution, Talend, Datameer...) Linear Scale Compute & HDFS Storage Operations (Ambari) Security (Knox, etc.) Ingest Multitenant Processing: YARN (Hadoop Operating System) Batch MapReduce Script Pig SQL Hive Online HBase Accumulo Real-time Storm In-memory Spark Others...
  • 21.
  • 22.
    Cloudera QuickStart VMs forCDH 5.3.x (VMWare, KVM, Virtualbox) http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x. html
  • 23.
    Hortonworks HDP 2.2 onSandbox (VMWare, Virtualbox) http://hortonworks.com/hdp/downloads/
  • 24.
    MapR MapR Sandbox (M7) (VMWare,Virtualbox) https://www.mapr.com/products/mapr-sandbox-hadoop/download
  • 25.
    IBM InfoSphere BigInsights IBMInfoSphere BigInsights Quick Start Edition (Linux, Windows) http://www.ibm.com/developerworks/downloads/im/biginsightsquick/
  • 26.
    Microsoft HDInsight Windows AzureHDInsight Emulator (Windows) http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started- emulator/#install
  • 27.
    Pivotal HD Pivotal HD2.1.0 Single Node VM (Linux) https://network.pivotal.io/products/pivotal-hd
  • 28.