Hadoopin lyhyt historia
VuosiKeskeinen teema
2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch
2007 Projekti julkistetaan v. 0.14
2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan
2009 Versio 0.20 julkistetaan
2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin)
2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista
2012 Teema: nopeus, mm. Cloudera Impala julkistetaan
2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan
2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm)
2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta
3.
Innoittajana Google
Googlen
julkaisu Vuosi
Avoimen
lähdekoodin
projektiVuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2004 Hadoop 2006 Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt
(SQL)
Spanner 2012 ? - Transaktiot
4.
Spanner
“Spanner is Google'sscalable, multi-version, globally-distributed, and
synchronously-replicated database. It is the first system to distribute data at
global scale and support externally-consistent distributed transactions. This
paper describes how Spanner is structured, its feature set, the rationale
underlying various design decisions, and a novel time API that exposes clock
uncertainty. This API and its implementation are critical to supporting external
consistency and a variety of powerful features: non-blocking reads in the past,
lock-free read-only transactions, and atomic schema changes, across all of
Spanner.”
http://research.google.com/archive/spanner.html
5.
Hadoopin asema Bigdata -ilmiössä
Hadoop
Tiedon määrä
Tiedonrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US economy had
at least an average of 200 terabytes of
stored data per company with more than
1,000 employees.
McKinsey 2011
By 2015, 65 percent of packaged analytic
applications with advanced analytics will
come embedded with Hadoop.
Gartner 2013
6.
Hadoop Suomessa
Käyttäjiä
v. 2015esim.
Käyttäjiä lähitulevaisuudessa
Rovio
Sanoma
Huawei
Vähittäiskauppa
Teollisuus
Telekommunikaatio
Media
Palvelualat
Fonecta
Klusteri?
Klusteri = joukkotoisiinsa kytkettyjä palvelimia, jotka
suorittavat annettua tehtävää hajautettuna, mutta näkyvät
käyttäjälle yhtenä järjestelmänä
10.
Commodity hardware?
Yleisesti saatavillaolevista
komponenteista koottuja palvelimia.
Ei kallista palvelinrautaa.
CPU: 2 x 4/6/8 -core
Mem: 48Gb+
Disk: 12 x 2-3Tb
Net: 1Gb+ Ethernet
~ 5 000 €
Microsoft HDInsight
Windows AzureHDInsight Emulator
(Windows)
http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started-
emulator/#install
27.
Pivotal HD
Pivotal HD2.1.0 Single Node VM
(Linux)
https://network.pivotal.io/products/pivotal-hd