Web components. Rewolucja w budowaniu aplikacji internetowych
Przetwarzanie BigData w chmurze z wykorzystaniem Apache Hadoop
1. 3camp
B!" D#$# ! Ap#%&' H#())p
Zamień swoje dane w informacje.
Szybko, łatwo i przyjemnie (na ile to możliwe).
Mateusz Haligowski - tech.3camp 2013 - Gdynia 1
piątek, 25 stycznia 13
2. 3camp
K!*+# ,ł.w ) /0!'
Cześć, jestem Mateusz Haligowski.
Na codzień piszę w Javie w JIT Solutions, prywatnie jestem
entuzjastą Pythona. I wielu innych technologii.
Studiowałem ekonometrię i statystykę na Uniwersytecie
Gdańskim (spokojnie, informatykę też).
Znajdziesz mnie tutaj:
GitHub mhaligowski LinkedIn mateusz.haligowski
Twitter @mhaligowski
Mateusz Haligowski - tech.3camp 2013 - Gdynia 2
piątek, 25 stycznia 13
4. 3camp
P) p!'rw4': 0#5+#
CERN
Genewa, Szwajcaria
Large Hadron Collider (Wielki Zderzacz
Hadronów) to największe urządzenie świata.
Część eksperymentu mającego na celu
znalezienie bądź wykluczenie bozonu
Higgsa.
Generowane dane
25 PB/rok
Mateusz Haligowski - tech.3camp 2013 - Gdynia 4
piątek, 25 stycznia 13
5. 3camp
P) (r5"!': z/!#01 ,p)ł'60'
Facebook
Menlo Park, California, USA
Największa na świecie sieć społecznościowa. 2,7
miliarda kliknięć „Lubię to” dziennie. 300 milionów
nowych zdjęć. 100 PB danych w pojedynczym klastrze.
Mateusz Haligowski - tech.3camp 2013 - Gdynia 5
piątek, 25 stycznia 13
7. 3camp
Sz1b+) ! (5ż)
✓W czasie 1h lotu w samolocie generowane
jest ok. 3GB danych
✓Logi systemowe!
✓Walmart - milion transakcji co godzinę
Mateusz Haligowski - tech.3camp 2013 - Gdynia 7
piątek, 25 stycznia 13
8. 3camp
R.ż0)r)(0)ść (#01%&
Dane o pacjencie Dane finansowe firmy
Mateusz Haligowski - tech.3camp 2013 - Gdynia 8
piątek, 25 stycznia 13
12. 3camp
Hadoop Common
Hadoop MapReduce
HDFS
Core
HBase Hive ZooKeeper
Chukwa
Pig Flume
Cassandra Thrift Avro
Oozie
Wyższy poziom Sqoop Konfiguracja i import danych
Mateusz Haligowski - tech.3camp 2013 - Gdynia 12
piątek, 25 stycznia 13
13. 3camp
1999: Doug Cutting zaczyna projekt Lucene
2002: Rozpoczyna się projekt Nutch
2006: Z projektu Nutch wyodrębnia się Hadoop
2009: Startuje Amazon Elastic MR
2011: Hadoop 1.0.0
2008: Powstaje Cloudera Inc.
2003: Inżynierowie Google przedstawiają dwa artykuły naukowe
Mateusz Haligowski - tech.3camp 2013 - Gdynia 13
piątek, 25 stycznia 13
16. 3camp
Z#ł)ż'0!# pr)2'+$)w' HDFS
✓bardzo duże pliki
✓strumieniowy dostęp do danych
✓uruchamiany na „zwykłych” maszynach
Mateusz Haligowski - tech.3camp 2013 - Gdynia 16
piątek, 25 stycznia 13
19. 3camp
T) 2'46' 0!' w41,$+)!
Co jeszcze może HDFS? I co będzie potrafił
Kompresja niedługo?
Kontrola dostępu
High Availability
HAR
Federowanie
Mateusz Haligowski - tech.3camp 2013 - Gdynia 19
piątek, 25 stycznia 13