Przetwarzanie BigData w chmurze z wykorzystaniem Apache Hadoop

1,138 views

Published on

Mateusz Haligowski – JIT Solutions – Przetwarzanie BigData w chmurze z wykorzystaniem Apache Hadoop;

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,138
On SlideShare
0
From Embeds
0
Number of Embeds
149
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Przetwarzanie BigData w chmurze z wykorzystaniem Apache Hadoop

  1. 1. 3camp B!" D#$# ! Ap#%& H#())p Zamień swoje dane w informacje. Szybko, łatwo i przyjemnie (na ile to możliwe). Mateusz Haligowski - tech.3camp 2013 - Gdynia 1piątek, 25 stycznia 13
  2. 2. 3camp K!*+# ,ł.w ) /0! Cześć, jestem Mateusz Haligowski. Na codzień piszę w Javie w JIT Solutions, prywatnie jestem entuzjastą Pythona. I wielu innych technologii. Studiowałem ekonometrię i statystykę na Uniwersytecie Gdańskim (spokojnie, informatykę też). Znajdziesz mnie tutaj: GitHub mhaligowski LinkedIn mateusz.haligowski Twitter @mhaligowski Mateusz Haligowski - tech.3camp 2013 - Gdynia 2piątek, 25 stycznia 13
  3. 3. 3camp 1 K!(1 „(#$#” ,$#2 ,!ę „B!" D#$#”? Mateusz Haligowski - tech.3camp 2013 - Gdynia 3piątek, 25 stycznia 13
  4. 4. 3camp P) p!rw4: 0#5+# CERN Genewa, Szwajcaria Large Hadron Collider (Wielki Zderzacz Hadronów) to największe urządzenie świata. Część eksperymentu mającego na celu znalezienie bądź wykluczenie bozonu Higgsa. Generowane dane 25 PB/rok Mateusz Haligowski - tech.3camp 2013 - Gdynia 4piątek, 25 stycznia 13
  5. 5. 3camp P) (r5"!: z/!#01 ,p)ł60 Facebook Menlo Park, California, USA Największa na świecie sieć społecznościowa. 2,7 miliarda kliknięć „Lubię to” dziennie. 300 milionów nowych zdjęć. 100 PB danych w pojedynczym klastrze. Mateusz Haligowski - tech.3camp 2013 - Gdynia 5piątek, 25 stycznia 13
  6. 6. 3camp J#+ (5ż) $) (5ż)? Mateusz Haligowski - tech.3camp 2013 - Gdynia 6piątek, 25 stycznia 13
  7. 7. 3camp Sz1b+) ! (5ż) ✓W czasie 1h lotu w samolocie generowane jest ok. 3GB danych ✓Logi systemowe! ✓Walmart - milion transakcji co godzinę Mateusz Haligowski - tech.3camp 2013 - Gdynia 7piątek, 25 stycznia 13
  8. 8. 3camp R.ż0)r)(0)ść (#01%& Dane o pacjencie Dane finansowe firmy Mateusz Haligowski - tech.3camp 2013 - Gdynia 8piątek, 25 stycznia 13
  9. 9. 3camp A w!ę% B!" D#$# $)... Volume Velocity Variety Mateusz Haligowski - tech.3camp 2013 - Gdynia 9piątek, 25 stycznia 13
  10. 10. 3camp I %) z $1/ /)"ę zr)b!ć? ✓Prognozy ✓Wyszukiwanie wzorców ✓Segmentacje ✓Silniki rekomendacyjne ✓„Sztuczna inteligencja” Mateusz Haligowski - tech.3camp 2013 - Gdynia 10piątek, 25 stycznia 13
  11. 11. 3camp 2 W!ę% 61/ 2,$ $0 %#ł1 Ap#%& H#())p Mateusz Haligowski - tech.3camp 2013 - Gdynia 11piątek, 25 stycznia 13
  12. 12. 3camp Hadoop Common Hadoop MapReduce HDFS Core HBase Hive ZooKeeper Chukwa Pig Flume Cassandra Thrift Avro Oozie Wyższy poziom Sqoop Konfiguracja i import danych Mateusz Haligowski - tech.3camp 2013 - Gdynia 12piątek, 25 stycznia 13
  13. 13. 3camp 1999: Doug Cutting zaczyna projekt Lucene 2002: Rozpoczyna się projekt Nutch 2006: Z projektu Nutch wyodrębnia się Hadoop 2009: Startuje Amazon Elastic MR 2011: Hadoop 1.0.0 2008: Powstaje Cloudera Inc. 2003: Inżynierowie Google przedstawiają dwa artykuły naukowe Mateusz Haligowski - tech.3camp 2013 - Gdynia 13piątek, 25 stycznia 13
  14. 14. 3camp K$) 5ż1w# H#())p# Mateusz Haligowski - tech.3camp 2013 - Gdynia 14piątek, 25 stycznia 13
  15. 15. 3camp 3 N#2p!rw p:%&)w#ć... Mateusz Haligowski - tech.3camp 2013 - Gdynia 15piątek, 25 stycznia 13
  16. 16. 3camp Z#ł)ż0!# pr)2+$)w HDFS ✓bardzo duże pliki ✓strumieniowy dostęp do danych ✓uruchamiany na „zwykłych” maszynach Mateusz Haligowski - tech.3camp 2013 - Gdynia 16piątek, 25 stycznia 13
  17. 17. 3camp Ar%&!$+$5r# HDFS NameNode Secondary NameNode DataNode DataNode DataNode Mateusz Haligowski - tech.3camp 2013 - Gdynia 17piątek, 25 stycznia 13
  18. 18. 3camp Z#p!,1w#0! (#01%& 1 2 Klient NameNode 8 4 5 7 3 6 9 DataNode DataNode DataNode Mateusz Haligowski - tech.3camp 2013 - Gdynia 18piątek, 25 stycznia 13
  19. 19. 3camp T) 246 0! w41,$+)! Co jeszcze może HDFS? I co będzie potrafił Kompresja niedługo? Kontrola dostępu High Availability HAR Federowanie Mateusz Haligowski - tech.3camp 2013 - Gdynia 19piątek, 25 stycznia 13
  20. 20. 3camp 4 ... # 0#,$ęp0! p)*!61ć Mateusz Haligowski - tech.3camp 2013 - Gdynia 20piątek, 25 stycznia 13
  21. 21. 3camp Ar%&!$+$5r# M#pR(5% JobTracker TaskTracker TaskTracker TaskTracker Mateusz Haligowski - tech.3camp 2013 - Gdynia 21piątek, 25 stycznia 13
  22. 22. 3camp M#p ! R(5% Map Reduce „Dla każdego elementu listy wykonaj funkcję” „Dla pierwszych dwóch elementów listy wykonaj Clojure: funkcję. Jej wynik oraz trzeci element listy będą user=> (map inc [1 2 3 4 5]) kolejnymi argumentami dla funkcji.” (2 3 4 5 6) Clojure: Python: >>> map(lambda x: x + 1, [1 2 3 4 5]) user=> (reduce + [1 2 3 4 5]) [2 3 4 5 6] 15 Python: >>> reduce(lambda x: x + 1, [1 2 3 4 5]) 15 Mateusz Haligowski - tech.3camp 2013 - Gdynia 22piątek, 25 stycznia 13
  23. 23. 3camp M#pR(5% w Ap#%& H#())p shuffle & wejście map reduce sort Litwo! Ojczyzno moja! ... (1, „Litwo! Ojczyzno ...”) („Litwo”, 1) („Litwo”, [1, 1, 1...]) („Litwo”, 12) Ile cię trzeba cenić, ... (2, „Ile cię trzeba ...”) („Ojczyzno”, 1) („Ojczyzno”, [1, 1, 1...]) („Ojczyzno”, 85) Kto cię stracił. Dziś ... (3, „Kto cię stracił... „) („moja”, 1) („moja”, [1, 1, 1...]) („moja”, 123) Mateusz Haligowski - tech.3camp 2013 - Gdynia 23piątek, 25 stycznia 13
  24. 24. 3camp C)ś 246? ✓Hadoop Streaming ✓Apache Pig ✓Apache Oozie ✓Apache Mahout Mateusz Haligowski - tech.3camp 2013 - Gdynia 24piątek, 25 stycznia 13
  25. 25. 3camp 5 J46 +!*+# (r)b!;".w Mateusz Haligowski - tech.3camp 2013 - Gdynia 25piątek, 25 stycznia 13
  26. 26. 3camp I0,$#*#%2# ! +)0<"5r#%2# ✓Absolutny quickstart: Amazon ElasticMapReduce ✓Cloudera Distribution for Hadoop; HortonWorks ✓Apache Hadoop „waniliowy” Mateusz Haligowski - tech.3camp 2013 - Gdynia 26piątek, 25 stycznia 13
  27. 27. 3camp D5ż (#0 () z#b#w1 ✓Million Songs Dataset: 280GB (próbka 1,8GB) ✓StackExchange ✓Twitter ✓www.infochimps.org ✓AWS Mateusz Haligowski - tech.3camp 2013 - Gdynia 27piątek, 25 stycznia 13
  28. 28. 3camp P1$#0!#? Mateusz Haligowski - tech.3camp 2013 - Gdynia 28piątek, 25 stycznia 13

×