Hadoop

Hadoopin lyhyt historia
Vuosi Keskeinen teema
2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch
2007 Projekti julkistetaan v. 0.14
2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan
2009 Versio 0.20 julkistetaan
2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin)
2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista
2012 Teema: nopeus, mm. Cloudera Impala julkistetaan
2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan
2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm)
2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta

Innoittajana Google
Googlen
julkaisu Vuosi
Avoimen
lähdekoodin
projekti Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2004 Hadoop 2006 Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt
(SQL)
Spanner 2012 ? - Transaktiot

Spanner
“Spanner is Google's scalable, multi-version, globally-distributed, and
synchronously-replicated database. It is the first system to distribute data at
global scale and support externally-consistent distributed transactions. This
paper describes how Spanner is structured, its feature set, the rationale
underlying various design decisions, and a novel time API that exposes clock
uncertainty. This API and its implementation are critical to supporting external
consistency and a variety of powerful features: non-blocking reads in the past,
lock-free read-only transactions, and atomic schema changes, across all of
Spanner.”
http://research.google.com/archive/spanner.html

Hadoopin asema Big data -ilmiössä
Hadoop
Tiedon määrä
Tiedonrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US economy had
at least an average of 200 terabytes of
stored data per company with more than
1,000 employees.
McKinsey 2011
By 2015, 65 percent of packaged analytic
applications with advanced analytics will
come embedded with Hadoop.
Gartner 2013

Hadoop Suomessa
Käyttäjiä
v. 2015 esim.
Käyttäjiä lähitulevaisuudessa
Rovio
Sanoma
Huawei
Vähittäiskauppa
Teollisuus
Telekommunikaatio
Media
Palvelualat
Fonecta

Hadoop-työpaikat
Työpaikkailmoitukset, joissa sana “Hadoop” 02/2015 Indeed.com
Taas nopeassa
nousussa vuoden
2015 alusta lähtien

Mitä Hadoop tekee?
Klusterin.
● Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.

Klusteri?
Klusteri = joukko toisiinsa kytkettyjä palvelimia, jotka
suorittavat annettua tehtävää hajautettuna, mutta näkyvät
käyttäjälle yhtenä järjestelmänä

Commodity hardware?
Yleisesti saatavilla olevista
komponenteista koottuja palvelimia.
Ei kallista palvelinrautaa.
CPU: 2 x 4/6/8 -core
Mem: 48Gb+
Disk: 12 x 2-3Tb
Net: 1Gb+ Ethernet
~ 5 000 €

Laskentateho vai tallennustila?
Laskentaoptimoitu
Matalin
virrankulutus
Laskentapainotteinen Tasapainoinen:
enemmän tehoa / node
Tallennukseen
optimoitu
CPU
Tallennuskapasiteetti
Tallennuspainotteinen

Miksi Hadoop kiinnostaa?
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemi, lisäosia ja laajennoksia!

Hadoop - komponentit
MapReduce
(hajautettu laskenta/analytiikka)
HDFS
(hajautettu tiedostojärjestelmä)
YARN
(Yet Another Resource Negotiator)
Common utilities

Hadoopin ilmeiset edut
Ohjelmoijan/käyttäjän ei tarvitse välittää:
● Mille palvelimille data on tallennettu
● Datan varmistamisesta
● Koodin hajauttamisesta
● Skaalautuvuudesta

Hadoop versiosta 1 versioon 2
Lähde: Hortonworks

Analytiikan siiloutuminen
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investigative
analytics
Data stream
processing
SQL-on-Hadoop Engines Explained, R20 Consultancy

Hadoopin lähtökohta alunperin
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investigative
analytics
Data stream
processing

Integraatiot ja yhteiskäyttö haaste
Siilo 1
Analytics
Batch
processing
Siilo 2 Siilo 3
Point queries
Interactive
reporting
Siilo 4 Siilo 5
Operational
analytics
Investigative
analytics
Siilo 6
Data stream
processing
Siilo 7

Tavoite: yksi alusta, Hadoop
Analytics
Batch
processing
Point queries
Interactive
reporting
Operational
analytics
Investigative
analytics
Data stream
processing
Yksi data-alusta (Data Management Platform)
DW
(HDFS?)

Hadoop-klusteri
Analysis (Excel, SAS, SAP, Tableau, Revolution, Talend, Datameer...)
Linear Scale Compute & HDFS Storage
Operations (Ambari)
Security (Knox, etc.)
Ingest
Multitenant Processing: YARN (Hadoop Operating System)
Batch
MapReduce
Script
Pig
SQL
Hive
Online
HBase
Accumulo
Real-time
Storm
In-memory
Spark
Others...

Kokeile jakeluja
Ilmainen kokeilu auttaa vertailemaan

Cloudera
QuickStart VMs for CDH 5.3.x
(VMWare, KVM, Virtualbox)
http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.
html

Hortonworks
HDP 2.2 on Sandbox
(VMWare, Virtualbox)
http://hortonworks.com/hdp/downloads/

MapR
MapR Sandbox (M7)
(VMWare, Virtualbox)
https://www.mapr.com/products/mapr-sandbox-hadoop/download

IBM InfoSphere BigInsights
IBM InfoSphere BigInsights Quick Start Edition
(Linux, Windows)
http://www.ibm.com/developerworks/downloads/im/biginsightsquick/

Microsoft HDInsight
Windows Azure HDInsight Emulator
(Windows)
http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started-
emulator/#install

Pivotal HD
Pivotal HD 2.1.0 Single Node VM
(Linux)
https://network.pivotal.io/products/pivotal-hd

Kiitos!
Immo Salo
immo.salo@gmail.com
@immon
fi.linkedin.com/in/immosalo
+358 41 368 1048

Hadoop

More Related Content

Similar to Hadoop

More from Immo Salo

Hadoop