SlideShare a Scribd company logo
1 of 13
Download to read offline
© 2013 Acxiom Corporation. All Rights Reserved. © 2013 Acxiom Corporation. All Rights Reserved.
Jak oswoić słonia w
korporacji
Hadoop in practice
11.06.2015 – Jakub Wszolek (jwszol@acxiom.com)
twitter.com/jwszol
© 2013 Acxiom Corporation. All Rights Reserved.
NoSQL
2
© 2013 Acxiom Corporation. All Rights Reserved.
Era danych
3
Nazwa Ilość danych
New York Stock 1 TB nowych danych / dzień
Ancestry.com (genealogy site) 2.5 PB danych
Facebook 1 PB danych
Allegro.pl Aukcja o numerze 1 600 000 000 (8 maja
2011)
© 2013 Acxiom Corporation. All Rights Reserved.
Rynek pracy
4
© 2013 Acxiom Corporation. All Rights Reserved.
Hadoop
5
• Hadoop framework
• Praktycznie nieograniczona skalowalność
• Środowisko rozproszone
• Możliwości szybkiej analizy dużych
wolumenów
• Dedykowane aplikacje
• wyszukiwanie trendów
• analizy statystyczne
© 2013 Acxiom Corporation. All Rights Reserved.
Hadoop eco-system
6
© 2013 Acxiom Corporation. All Rights Reserved.
Klaster klienta
7
• Srodowiska VM vs. Fizyczne
• Wolumen danych
• bigdata.myAcxiom.com – warstwa dostepowa
© 2013 Acxiom Corporation. All Rights Reserved.
Klaster klienta
8
• HUE
• Dedykowane rozwiazania administracyjne
© 2013 Acxiom Corporation. All Rights Reserved.
Ingestion/extraction process
9
Extract
Ingestion
Ingestion
Extract
© 2013 Acxiom Corporation. All Rights Reserved.
Automatyzacja
• Oozie scheduler
• Autorskie narzedzia wspomagajace
-Hadoop Java Framework
-Python
-Shell script
• Rozbudowany system raportowania
10
© 2013 Acxiom Corporation. All Rights Reserved.
Analiza - R
11
• RevR + RStudio
• DataScience
• Analiza trendów, zaawansowany klastering
• Budowanie modeli predykcyjych
• Klasyfikatory
© 2013 Acxiom Corporation. All Rights Reserved.
Typowe problemy
• Podzial zasobow klastra pomiedzy wielku
uzytkowników
• Fair Scheduler -
http://hadoop.apache.org/docs/r1.2.1/fair_scheduler.html
• Edge node – zarzadzanie dostepem
• Partycjonwanie duzych tabeli
• Nieoptymalne zapytania (HQL)
12
© 2013 Acxiom Corporation. All Rights Reserved. © 2013 Acxiom Corporation. All Rights Reserved.
Pytania?
Dziekuje!

More Related Content

Viewers also liked

Viewers also liked (9)

Malarz-tapeciarz
Malarz-tapeciarzMalarz-tapeciarz
Malarz-tapeciarz
 
Estado de ánimo lili
Estado de ánimo liliEstado de ánimo lili
Estado de ánimo lili
 
6 A Marinda Taylor
6 A Marinda Taylor6 A Marinda Taylor
6 A Marinda Taylor
 
Alameda
AlamedaAlameda
Alameda
 
MT87 How technology can reduce costs, minimize environmental impact, and maxi...
MT87 How technology can reduce costs, minimize environmental impact, and maxi...MT87 How technology can reduce costs, minimize environmental impact, and maxi...
MT87 How technology can reduce costs, minimize environmental impact, and maxi...
 
APGDCR-PV-Curriculum
APGDCR-PV-CurriculumAPGDCR-PV-Curriculum
APGDCR-PV-Curriculum
 
mobashir alam cv 2016
mobashir alam cv 2016mobashir alam cv 2016
mobashir alam cv 2016
 
mohanspmr-latest
mohanspmr-latestmohanspmr-latest
mohanspmr-latest
 
Unz-ru
Unz-ruUnz-ru
Unz-ru
 

InfoShare2015

  • 1. © 2013 Acxiom Corporation. All Rights Reserved. © 2013 Acxiom Corporation. All Rights Reserved. Jak oswoić słonia w korporacji Hadoop in practice 11.06.2015 – Jakub Wszolek (jwszol@acxiom.com) twitter.com/jwszol
  • 2. © 2013 Acxiom Corporation. All Rights Reserved. NoSQL 2
  • 3. © 2013 Acxiom Corporation. All Rights Reserved. Era danych 3 Nazwa Ilość danych New York Stock 1 TB nowych danych / dzień Ancestry.com (genealogy site) 2.5 PB danych Facebook 1 PB danych Allegro.pl Aukcja o numerze 1 600 000 000 (8 maja 2011)
  • 4. © 2013 Acxiom Corporation. All Rights Reserved. Rynek pracy 4
  • 5. © 2013 Acxiom Corporation. All Rights Reserved. Hadoop 5 • Hadoop framework • Praktycznie nieograniczona skalowalność • Środowisko rozproszone • Możliwości szybkiej analizy dużych wolumenów • Dedykowane aplikacje • wyszukiwanie trendów • analizy statystyczne
  • 6. © 2013 Acxiom Corporation. All Rights Reserved. Hadoop eco-system 6
  • 7. © 2013 Acxiom Corporation. All Rights Reserved. Klaster klienta 7 • Srodowiska VM vs. Fizyczne • Wolumen danych • bigdata.myAcxiom.com – warstwa dostepowa
  • 8. © 2013 Acxiom Corporation. All Rights Reserved. Klaster klienta 8 • HUE • Dedykowane rozwiazania administracyjne
  • 9. © 2013 Acxiom Corporation. All Rights Reserved. Ingestion/extraction process 9 Extract Ingestion Ingestion Extract
  • 10. © 2013 Acxiom Corporation. All Rights Reserved. Automatyzacja • Oozie scheduler • Autorskie narzedzia wspomagajace -Hadoop Java Framework -Python -Shell script • Rozbudowany system raportowania 10
  • 11. © 2013 Acxiom Corporation. All Rights Reserved. Analiza - R 11 • RevR + RStudio • DataScience • Analiza trendów, zaawansowany klastering • Budowanie modeli predykcyjych • Klasyfikatory
  • 12. © 2013 Acxiom Corporation. All Rights Reserved. Typowe problemy • Podzial zasobow klastra pomiedzy wielku uzytkowników • Fair Scheduler - http://hadoop.apache.org/docs/r1.2.1/fair_scheduler.html • Edge node – zarzadzanie dostepem • Partycjonwanie duzych tabeli • Nieoptymalne zapytania (HQL) 12
  • 13. © 2013 Acxiom Corporation. All Rights Reserved. © 2013 Acxiom Corporation. All Rights Reserved. Pytania? Dziekuje!