SlideShare a Scribd company logo
1 of 28
3camp




       B!" D#$# ! Ap#%&' H#())p
       Zamień swoje dane w informacje.
       Szybko, łatwo i przyjemnie (na ile to możliwe).




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           1

piątek, 25 stycznia 13
3camp



          K!*+# ,ł.w ) /0!'
          Cześć, jestem Mateusz Haligowski.

          Na codzień piszę w Javie w JIT Solutions, prywatnie jestem
          entuzjastą Pythona. I wielu innych technologii.

          Studiowałem ekonometrię i statystykę na Uniwersytecie
          Gdańskim (spokojnie, informatykę też).


          Znajdziesz mnie tutaj:
          GitHub mhaligowski LinkedIn mateusz.haligowski
          Twitter @mhaligowski


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia             2

piątek, 25 stycznia 13
3camp




                                                                       1
                                                             K!'(1 „(#$#” ,$#2' ,!ę „B!" D#$#”?


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                        3

piątek, 25 stycznia 13
3camp



          P) p!'rw4': 0#5+#
          CERN
          Genewa, Szwajcaria

          Large Hadron Collider (Wielki Zderzacz
          Hadronów) to największe urządzenie świata.
          Część eksperymentu mającego na celu
          znalezienie bądź wykluczenie bozonu
          Higgsa.

          Generowane dane
          25 PB/rok



                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           4

piątek, 25 stycznia 13
3camp



          P) (r5"!': z/!#01 ,p)ł'60'
          Facebook
          Menlo Park, California, USA

          Największa na świecie sieć społecznościowa. 2,7
          miliarda kliknięć „Lubię to” dziennie. 300 milionów
          nowych zdjęć. 100 PB danych w pojedynczym klastrze.




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           5

piątek, 25 stycznia 13
3camp



          J#+ (5ż) $) (5ż)?




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           6

piątek, 25 stycznia 13
3camp



          Sz1b+) ! (5ż)

                           ✓W czasie 1h lotu w samolocie generowane
                           jest ok. 3GB danych
                           ✓Logi systemowe!
                           ✓Walmart - milion transakcji co godzinę



                     Mateusz Haligowski - tech.3camp 2013 - Gdynia            7

piątek, 25 stycznia 13
3camp



          R.ż0)r)(0)ść (#01%&
                                Dane o pacjencie                     Dane finansowe firmy




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                           8

piątek, 25 stycznia 13
3camp



          A w!ę% B!" D#$# $)...

                                                                       Volume
                                                                               Velocity
                                                                     Variety


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                9

piątek, 25 stycznia 13
3camp



          I %) z $1/ /)"ę zr)b!ć?

                           ✓Prognozy
                           ✓Wyszukiwanie wzorców
                           ✓Segmentacje
                           ✓Silniki rekomendacyjne
                           ✓„Sztuczna inteligencja”


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           10

piątek, 25 stycznia 13
3camp




                                                                     2
                                                         W!ę% 61/ 2',$ $'0 %#ł1 Ap#%&' H#())p


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                      11

piątek, 25 stycznia 13
3camp

              Hadoop Common
          Hadoop MapReduce
                          HDFS
       Core




          HBase                             Hive                                     ZooKeeper
                                                                         Chukwa
                                             Pig                                        Flume
       Cassandra                                                       Thrift Avro
                                             Oozie
          Wyższy poziom                                              Sqoop   Konfiguracja i import danych


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                     12

piątek, 25 stycznia 13
3camp



                                  1999: Doug Cutting zaczyna projekt Lucene

                                                             2002: Rozpoczyna się projekt Nutch

                                                                                       2006: Z projektu Nutch wyodrębnia się Hadoop

                                                                                                         2009: Startuje Amazon Elastic MR




                                                                                                                            2011: Hadoop 1.0.0

                                                                                                    2008: Powstaje Cloudera Inc.


                                                                     2003: Inżynierowie Google przedstawiają dwa artykuły naukowe




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                                                          13

piątek, 25 stycznia 13
3camp



          K$) 5ż1w# H#())p#




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           14

piątek, 25 stycznia 13
3camp




                                                                         3
                                                                     N#2p!'rw p:'%&)w#ć...


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                   15

piątek, 25 stycznia 13
3camp



          Z#ł)ż'0!# pr)2'+$)w' HDFS


                           ✓bardzo duże pliki
                           ✓strumieniowy dostęp do danych
                           ✓uruchamiany na „zwykłych” maszynach




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           16

piątek, 25 stycznia 13
3camp



          Ar%&!$'+$5r# HDFS


                                                                     NameNode   Secondary NameNode




                                                     DataNode        DataNode   DataNode




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                           17

piątek, 25 stycznia 13
3camp



          Z#p!,1w#0!' (#01%&
                                                                     1

                                                                     2

                                                Klient                   NameNode

                                                                                              8
                                                                          4   5
                                                                                        7
                                                                3

                                                                                    6                  9



                                                                         DataNode           DataNode       DataNode



                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                                            18

piątek, 25 stycznia 13
3camp



          T) 2'46' 0!' w41,$+)!

          Co jeszcze może HDFS?                                      I co będzie potrafił
          Kompresja                                                  niedługo?
          Kontrola dostępu
                                                                     High Availability
          HAR
                                                                     Federowanie




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                  19

piątek, 25 stycznia 13
3camp




                                                                        4
                                                                     ... # 0#,$ęp0!' p)*!61ć


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                     20

piątek, 25 stycznia 13
3camp



          Ar%&!$'+$5r# M#pR'(5%'


                                                                     JobTracker




                                                   TaskTracker       TaskTracker   TaskTracker




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                       21

piątek, 25 stycznia 13
3camp



          M#p ! R'(5%'
          Map                                                        Reduce
          „Dla każdego elementu listy wykonaj funkcję”               „Dla pierwszych dwóch elementów listy wykonaj
          Clojure:                                                   funkcję. Jej wynik oraz trzeci element listy będą
          user=> (map inc [1 2 3 4 5])                               kolejnymi argumentami dla funkcji.”
          (2 3 4 5 6)
                                                                     Clojure:
          Python:
          >>> map(lambda x: x + 1, [1 2 3 4 5])                      user=> (reduce + [1 2 3 4 5])
          [2 3 4 5 6]                                                15

                                                                     Python:
                                                                     >>> reduce(lambda x: x + 1, [1 2 3 4 5])
                                                                     15




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                                        22

piątek, 25 stycznia 13
3camp



          M#pR'(5%' w Ap#%&' H#())p
                                                                                              shuffle &
                                       wejście                              map                                         reduce
                                                                                                sort


                         Litwo! Ojczyzno moja! ...    (1, „Litwo! Ojczyzno ...”)   („Litwo”, 1)      („Litwo”, [1, 1, 1...])      („Litwo”, 12)
                         Ile cię trzeba cenić, ...    (2, „Ile cię trzeba ...”)    („Ojczyzno”, 1)   („Ojczyzno”, [1, 1, 1...])   („Ojczyzno”, 85)
                         Kto cię stracił. Dziś ...    (3, „Kto cię stracił... „)   („moja”, 1)       („moja”, [1, 1, 1...])       („moja”, 123)




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                                                                           23

piątek, 25 stycznia 13
3camp



          C)ś 2'46'?

                           ✓Hadoop Streaming
                           ✓Apache Pig
                           ✓Apache Oozie
                           ✓Apache Mahout



                     Mateusz Haligowski - tech.3camp 2013 - Gdynia           24

piątek, 25 stycznia 13
3camp




                                                                         5
                                                                     J'46' +!*+# (r)b!;".w


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                                   25

piątek, 25 stycznia 13
3camp



          I0,$#*#%2# ! +)0<"5r#%2#


                           ✓Absolutny quickstart: Amazon ElasticMapReduce
                           ✓Cloudera Distribution for Hadoop; HortonWorks
                           ✓Apache Hadoop „waniliowy”




                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                  26

piątek, 25 stycznia 13
3camp



          D5ż' (#0' () z#b#w1

                           ✓Million Songs Dataset: 280GB (próbka 1,8GB)
                           ✓StackExchange
                           ✓Twitter
                           ✓www.infochimps.org
                           ✓AWS


                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                27

piątek, 25 stycznia 13
3camp




                                                                     P1$#0!#?



                     Mateusz Haligowski - tech.3camp 2013 - Gdynia                      28

piątek, 25 stycznia 13

More Related Content

More from 3camp

Google App Engine i Google Play Services w Twoich aplikacjach
Google App Engine i Google Play Services w Twoich aplikacjachGoogle App Engine i Google Play Services w Twoich aplikacjach
Google App Engine i Google Play Services w Twoich aplikacjach3camp
 
Reakcja łańcuchowa, czyli React.js w praktyce
Reakcja łańcuchowa, czyli React.js w praktyceReakcja łańcuchowa, czyli React.js w praktyce
Reakcja łańcuchowa, czyli React.js w praktyce3camp
 
Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”
Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”
Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”3camp
 
AngularJS (nie) nadaje się do dużego projektu
AngularJS (nie) nadaje się do dużego projektuAngularJS (nie) nadaje się do dużego projektu
AngularJS (nie) nadaje się do dużego projektu3camp
 
Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...
Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...
Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...3camp
 
Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?
Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?
Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?3camp
 
Artur Senk, OKE Poland, Big Data na zakupach
Artur Senk, OKE Poland, Big Data na zakupachArtur Senk, OKE Poland, Big Data na zakupach
Artur Senk, OKE Poland, Big Data na zakupach3camp
 
Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...
Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...
Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...3camp
 
Marcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnie
Marcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnieMarcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnie
Marcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnie3camp
 
Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...
Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...
Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...3camp
 
Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...
Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...
Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...3camp
 
Marcin Szeląg, InnovationNest, Startup Risk Model
Marcin Szeląg, InnovationNest, Startup Risk ModelMarcin Szeląg, InnovationNest, Startup Risk Model
Marcin Szeląg, InnovationNest, Startup Risk Model3camp
 
JSON, REST API
JSON, REST APIJSON, REST API
JSON, REST API3camp
 
Ostatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanie
Ostatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanieOstatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanie
Ostatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanie3camp
 
Oculus Rift – zanurzenie w przyszłość
Oculus Rift – zanurzenie w przyszłośćOculus Rift – zanurzenie w przyszłość
Oculus Rift – zanurzenie w przyszłość3camp
 
Druk 3d w służbie medycyny i przemysłu
 Druk 3d w służbie medycyny i przemysłu Druk 3d w służbie medycyny i przemysłu
Druk 3d w służbie medycyny i przemysłu3camp
 
Bitcoin – waluta globalna
Bitcoin – waluta globalnaBitcoin – waluta globalna
Bitcoin – waluta globalna3camp
 
Is social media next waste?
Is social media next waste?Is social media next waste?
Is social media next waste?3camp
 
W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...
W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...
W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...3camp
 
Web components. Rewolucja w budowaniu aplikacji internetowych
Web components. Rewolucja w budowaniu aplikacji internetowychWeb components. Rewolucja w budowaniu aplikacji internetowych
Web components. Rewolucja w budowaniu aplikacji internetowych3camp
 

More from 3camp (20)

Google App Engine i Google Play Services w Twoich aplikacjach
Google App Engine i Google Play Services w Twoich aplikacjachGoogle App Engine i Google Play Services w Twoich aplikacjach
Google App Engine i Google Play Services w Twoich aplikacjach
 
Reakcja łańcuchowa, czyli React.js w praktyce
Reakcja łańcuchowa, czyli React.js w praktyceReakcja łańcuchowa, czyli React.js w praktyce
Reakcja łańcuchowa, czyli React.js w praktyce
 
Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”
Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”
Odtwarzanie multimediów w HTML5, czyli Player przez duże „P”
 
AngularJS (nie) nadaje się do dużego projektu
AngularJS (nie) nadaje się do dużego projektuAngularJS (nie) nadaje się do dużego projektu
AngularJS (nie) nadaje się do dużego projektu
 
Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...
Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...
Przemysław Bartkowiak - Sam ustalasz ile za to zapłacisz – czyli nowy wymiar ...
 
Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?
Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?
Mirek Wąsowicz - Segment jednego, dokąd zmierza marketing online?
 
Artur Senk, OKE Poland, Big Data na zakupach
Artur Senk, OKE Poland, Big Data na zakupachArtur Senk, OKE Poland, Big Data na zakupach
Artur Senk, OKE Poland, Big Data na zakupach
 
Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...
Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...
Piotr Macuk, Konfeo.com, Programista i biznes – plusy i minusy własnej działa...
 
Marcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnie
Marcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnieMarcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnie
Marcin Maj, Kainos - QA – wartko, zmiennie i interdyscyplinarnie
 
Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...
Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...
Jak przesiąść się na rower na dwóch kółkach? Od trzyosobowego startupu do spó...
 
Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...
Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...
Łukasz Brzeziński - Jak zarabiać z Wikingami? Czyli monetyzacja portalu inter...
 
Marcin Szeląg, InnovationNest, Startup Risk Model
Marcin Szeląg, InnovationNest, Startup Risk ModelMarcin Szeląg, InnovationNest, Startup Risk Model
Marcin Szeląg, InnovationNest, Startup Risk Model
 
JSON, REST API
JSON, REST APIJSON, REST API
JSON, REST API
 
Ostatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanie
Ostatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanieOstatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanie
Ostatnia faza produktu: co się dzieję kiedy programista zakończył swoje zadanie
 
Oculus Rift – zanurzenie w przyszłość
Oculus Rift – zanurzenie w przyszłośćOculus Rift – zanurzenie w przyszłość
Oculus Rift – zanurzenie w przyszłość
 
Druk 3d w służbie medycyny i przemysłu
 Druk 3d w służbie medycyny i przemysłu Druk 3d w służbie medycyny i przemysłu
Druk 3d w służbie medycyny i przemysłu
 
Bitcoin – waluta globalna
Bitcoin – waluta globalnaBitcoin – waluta globalna
Bitcoin – waluta globalna
 
Is social media next waste?
Is social media next waste?Is social media next waste?
Is social media next waste?
 
W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...
W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...
W poszukiwaniu właściwych pytań i jednoznacznych odpowiedzi. Analiza biznesow...
 
Web components. Rewolucja w budowaniu aplikacji internetowych
Web components. Rewolucja w budowaniu aplikacji internetowychWeb components. Rewolucja w budowaniu aplikacji internetowych
Web components. Rewolucja w budowaniu aplikacji internetowych
 

Przetwarzanie BigData w chmurze z wykorzystaniem Apache Hadoop

  • 1. 3camp B!" D#$# ! Ap#%&' H#())p Zamień swoje dane w informacje. Szybko, łatwo i przyjemnie (na ile to możliwe). Mateusz Haligowski - tech.3camp 2013 - Gdynia 1 piątek, 25 stycznia 13
  • 2. 3camp K!*+# ,ł.w ) /0!' Cześć, jestem Mateusz Haligowski. Na codzień piszę w Javie w JIT Solutions, prywatnie jestem entuzjastą Pythona. I wielu innych technologii. Studiowałem ekonometrię i statystykę na Uniwersytecie Gdańskim (spokojnie, informatykę też). Znajdziesz mnie tutaj: GitHub mhaligowski LinkedIn mateusz.haligowski Twitter @mhaligowski Mateusz Haligowski - tech.3camp 2013 - Gdynia 2 piątek, 25 stycznia 13
  • 3. 3camp 1 K!'(1 „(#$#” ,$#2' ,!ę „B!" D#$#”? Mateusz Haligowski - tech.3camp 2013 - Gdynia 3 piątek, 25 stycznia 13
  • 4. 3camp P) p!'rw4': 0#5+# CERN Genewa, Szwajcaria Large Hadron Collider (Wielki Zderzacz Hadronów) to największe urządzenie świata. Część eksperymentu mającego na celu znalezienie bądź wykluczenie bozonu Higgsa. Generowane dane 25 PB/rok Mateusz Haligowski - tech.3camp 2013 - Gdynia 4 piątek, 25 stycznia 13
  • 5. 3camp P) (r5"!': z/!#01 ,p)ł'60' Facebook Menlo Park, California, USA Największa na świecie sieć społecznościowa. 2,7 miliarda kliknięć „Lubię to” dziennie. 300 milionów nowych zdjęć. 100 PB danych w pojedynczym klastrze. Mateusz Haligowski - tech.3camp 2013 - Gdynia 5 piątek, 25 stycznia 13
  • 6. 3camp J#+ (5ż) $) (5ż)? Mateusz Haligowski - tech.3camp 2013 - Gdynia 6 piątek, 25 stycznia 13
  • 7. 3camp Sz1b+) ! (5ż) ✓W czasie 1h lotu w samolocie generowane jest ok. 3GB danych ✓Logi systemowe! ✓Walmart - milion transakcji co godzinę Mateusz Haligowski - tech.3camp 2013 - Gdynia 7 piątek, 25 stycznia 13
  • 8. 3camp R.ż0)r)(0)ść (#01%& Dane o pacjencie Dane finansowe firmy Mateusz Haligowski - tech.3camp 2013 - Gdynia 8 piątek, 25 stycznia 13
  • 9. 3camp A w!ę% B!" D#$# $)... Volume Velocity Variety Mateusz Haligowski - tech.3camp 2013 - Gdynia 9 piątek, 25 stycznia 13
  • 10. 3camp I %) z $1/ /)"ę zr)b!ć? ✓Prognozy ✓Wyszukiwanie wzorców ✓Segmentacje ✓Silniki rekomendacyjne ✓„Sztuczna inteligencja” Mateusz Haligowski - tech.3camp 2013 - Gdynia 10 piątek, 25 stycznia 13
  • 11. 3camp 2 W!ę% 61/ 2',$ $'0 %#ł1 Ap#%&' H#())p Mateusz Haligowski - tech.3camp 2013 - Gdynia 11 piątek, 25 stycznia 13
  • 12. 3camp Hadoop Common Hadoop MapReduce HDFS Core HBase Hive ZooKeeper Chukwa Pig Flume Cassandra Thrift Avro Oozie Wyższy poziom Sqoop Konfiguracja i import danych Mateusz Haligowski - tech.3camp 2013 - Gdynia 12 piątek, 25 stycznia 13
  • 13. 3camp 1999: Doug Cutting zaczyna projekt Lucene 2002: Rozpoczyna się projekt Nutch 2006: Z projektu Nutch wyodrębnia się Hadoop 2009: Startuje Amazon Elastic MR 2011: Hadoop 1.0.0 2008: Powstaje Cloudera Inc. 2003: Inżynierowie Google przedstawiają dwa artykuły naukowe Mateusz Haligowski - tech.3camp 2013 - Gdynia 13 piątek, 25 stycznia 13
  • 14. 3camp K$) 5ż1w# H#())p# Mateusz Haligowski - tech.3camp 2013 - Gdynia 14 piątek, 25 stycznia 13
  • 15. 3camp 3 N#2p!'rw p:'%&)w#ć... Mateusz Haligowski - tech.3camp 2013 - Gdynia 15 piątek, 25 stycznia 13
  • 16. 3camp Z#ł)ż'0!# pr)2'+$)w' HDFS ✓bardzo duże pliki ✓strumieniowy dostęp do danych ✓uruchamiany na „zwykłych” maszynach Mateusz Haligowski - tech.3camp 2013 - Gdynia 16 piątek, 25 stycznia 13
  • 17. 3camp Ar%&!$'+$5r# HDFS NameNode Secondary NameNode DataNode DataNode DataNode Mateusz Haligowski - tech.3camp 2013 - Gdynia 17 piątek, 25 stycznia 13
  • 18. 3camp Z#p!,1w#0!' (#01%& 1 2 Klient NameNode 8 4 5 7 3 6 9 DataNode DataNode DataNode Mateusz Haligowski - tech.3camp 2013 - Gdynia 18 piątek, 25 stycznia 13
  • 19. 3camp T) 2'46' 0!' w41,$+)! Co jeszcze może HDFS? I co będzie potrafił Kompresja niedługo? Kontrola dostępu High Availability HAR Federowanie Mateusz Haligowski - tech.3camp 2013 - Gdynia 19 piątek, 25 stycznia 13
  • 20. 3camp 4 ... # 0#,$ęp0!' p)*!61ć Mateusz Haligowski - tech.3camp 2013 - Gdynia 20 piątek, 25 stycznia 13
  • 21. 3camp Ar%&!$'+$5r# M#pR'(5%' JobTracker TaskTracker TaskTracker TaskTracker Mateusz Haligowski - tech.3camp 2013 - Gdynia 21 piątek, 25 stycznia 13
  • 22. 3camp M#p ! R'(5%' Map Reduce „Dla każdego elementu listy wykonaj funkcję” „Dla pierwszych dwóch elementów listy wykonaj Clojure: funkcję. Jej wynik oraz trzeci element listy będą user=> (map inc [1 2 3 4 5]) kolejnymi argumentami dla funkcji.” (2 3 4 5 6) Clojure: Python: >>> map(lambda x: x + 1, [1 2 3 4 5]) user=> (reduce + [1 2 3 4 5]) [2 3 4 5 6] 15 Python: >>> reduce(lambda x: x + 1, [1 2 3 4 5]) 15 Mateusz Haligowski - tech.3camp 2013 - Gdynia 22 piątek, 25 stycznia 13
  • 23. 3camp M#pR'(5%' w Ap#%&' H#())p shuffle & wejście map reduce sort Litwo! Ojczyzno moja! ... (1, „Litwo! Ojczyzno ...”) („Litwo”, 1) („Litwo”, [1, 1, 1...]) („Litwo”, 12) Ile cię trzeba cenić, ... (2, „Ile cię trzeba ...”) („Ojczyzno”, 1) („Ojczyzno”, [1, 1, 1...]) („Ojczyzno”, 85) Kto cię stracił. Dziś ... (3, „Kto cię stracił... „) („moja”, 1) („moja”, [1, 1, 1...]) („moja”, 123) Mateusz Haligowski - tech.3camp 2013 - Gdynia 23 piątek, 25 stycznia 13
  • 24. 3camp C)ś 2'46'? ✓Hadoop Streaming ✓Apache Pig ✓Apache Oozie ✓Apache Mahout Mateusz Haligowski - tech.3camp 2013 - Gdynia 24 piątek, 25 stycznia 13
  • 25. 3camp 5 J'46' +!*+# (r)b!;".w Mateusz Haligowski - tech.3camp 2013 - Gdynia 25 piątek, 25 stycznia 13
  • 26. 3camp I0,$#*#%2# ! +)0<"5r#%2# ✓Absolutny quickstart: Amazon ElasticMapReduce ✓Cloudera Distribution for Hadoop; HortonWorks ✓Apache Hadoop „waniliowy” Mateusz Haligowski - tech.3camp 2013 - Gdynia 26 piątek, 25 stycznia 13
  • 27. 3camp D5ż' (#0' () z#b#w1 ✓Million Songs Dataset: 280GB (próbka 1,8GB) ✓StackExchange ✓Twitter ✓www.infochimps.org ✓AWS Mateusz Haligowski - tech.3camp 2013 - Gdynia 27 piątek, 25 stycznia 13
  • 28. 3camp P1$#0!#? Mateusz Haligowski - tech.3camp 2013 - Gdynia 28 piątek, 25 stycznia 13