Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowski Paweł Zawistowski

Machine learning vs Big Data - od pomysłu do produkcji
Bartłomiej Twardowski, Paweł Zawistowski

Agenda + Trochę o nas
• B.Twardowski
• Big Data dla ML
• od surówki do modelu
• praktyczne rady
• P.Zawistowski
• Ruszamy na produkcję
• Co może pójść źle...

Big Data & Machine Learning w Allegro
Big Data:
• clickstream (web/mobile - Kafka)
• backend events (microservices - Hermes)
• dane archiwalne z wielu lat (DWH)
ML w Allegro:
• rankingowanie
• rekomendacje
• atrybucja wielokanałowa
• ocena jakości zdjęć
• ads (za chwilę)

Zaczynamy naszą przygodę...
...czyli: jak od surowych danych przejść do modelowania?
Ankieta KDNuggets CRISP-DM
Źródło: http://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html

Exploratory Data Analysis - lubimy duże dane
Pomocne narzędzia:
- HQL(Hive+Tez), SQL (Exadata)
- Hue (każdy ma dostęp z konta AD)
- R (sparkR+dplyr+ggplot2+shiny)
- Jupyter Notebooks (+Spark backend)
- Kibana (ElasticSearch)
- Tableau (Hive JDBC/Spark)

Przygotowanie danych
• Na koniec dnia potrzebujemy zbiory: train,
valid, test
• zadania: czyszczenie danych, agregacja,
próbkowanie, transformacja atrybutów, cechy
- wybór/tworzenie, redukcja wymiarów
• większość naszego czasu! (90%/10%)
• nie raz będziemy wracać i modyfikować ten proces
• GIGO
• if isOnHadoop(data): Spark+DataFrame
else: data.table/dplyr/pandas

Big Data? A może odpowiednia próbka?
• Próbkowanie
• odpowiedni dobór reprezentatywnych danych:
• random/stratified
• zachowanie charakterystyki danych (np. sezonowość w e-commerce)
• Niezbalansowane zbiory danych
• Przykłady:
• e-commerce: don’t buy/buy - 99%/1%, medical diagnosis (90% healty, 10% disease)...
• Predykcja większościowej klasy jest łatwa, ale bezużyteczna
• Balansujemy zbiór danych pod nasze potrzeby - np. dla metod pairwaise dla
każdej próbki pozytywnej losujemy z empirycznym rozkładem negatywną

Wybór algorytmu ML
- “kwintesencja” całego procesu
- wybieramy model na potrzeby naszego problemu np. predykcja
kliku, prawdopodobieństwo zakupu, ranking ofert
- mnóstwo dostępnych rozwiązań dla różnej klasy problemów
- dostępne implementacje, w większości open-source
- publikacje + reprodukowalne eksperymenty: arXive + Github =>
GitXive
- warto zachowywać wraz z wynikiem wytrenowane parametry i
wybrane hyper-parametry

Czego uczymy nasz model?
Predykcji wartości X czy zarabiania pieniędzy w walucie Y?
• odpowiedni dobór f. kosztu przy optymalizacji modelu
• ewaluacja model offline vs online - różne miary
• dobranie miary sukcesu dla swojego przedsięwzięcia
Przykład:
• optym. pod predykcje wartości (RMSE)
• właściwie pokazujemy jako listę posortowaną i jakość rankingu
(recall@N/nDCG@N)
• biznes patrzy na raport: CTR, GMV

Kiedy warto rozpraszać ML
- kiedy nie mamy innego
wyjścia
- mamy gotową
implementację naszego
algorytmu
Info na moim Twitter: @btwardow, bez montażu ;-)

Ta sama implementacja w Theano - CPU vs GPU
Factorization Machines implemented in Theano, left CPU (16xIntel) vs GPU (AWS g2.2xlarge)

Wybór technologi dev/prod - kompromis?
- mądry wybór narzędzi do zadania (dostępne
biblioteki/informacje/społeczność)
- wykorzystanie technologi która umożliwi eksperyment na produkcji
i szybką weryfikacje hipotezy (np. Spark+MLlib, python+Theano,
mxnet)
- mit “data scientist” - od surowych danych po działające rozwiązanie
na produkcji z wysokim SLA

Clean Code i TDD w programowaniu alg. ML
- jest trudne!
- przyzwyczajenie do Notebook
- póki nie robimy własnego pakietu (R/Julia/Python) często uważamy
za niepotrzebne
- dużo zależności od danych: czy do repo wrzucać próbki w CSV? a
może pisać specjalny generator?

Wdrażamy!
...ale nie porzucajmy modeli na produkcji

Co może pójść nie tak?
Źródło: http://static.fjcdn.com/pictures/What+could+possibly+go+wrong+comp+1_f5df2e_5306624.jpg

CACE - Changing Anything,
Changes Everything
Źródło: D. Sculley et al.: „Machine Learning: The High-Interest Credit Card of Technical Debt”, Google,

Problemy z atrybutami wejściowymi
Źródło: https://upload.wikimedia.org/wikipedia/commons/thumb/9/92/CPT_Hardware-InputOutput.svg/1212px-CPT_Hardware-InputOutput.svg.png

Niestabilne atrybuty
● Modelowane zjawiska się zmieniają.
● Inne systemy bywają niestabilne i ewoluują
f(x, )

Źródło: http://tylervigen.com/spurious-correlations
Degradacja atrybutów: fałszywe korelacje

Degradacja atrybutów: mikrooptymalizacje
Źródło: http://pu.i.wp.pl/?k=MzE1Mzg5MjAsMTg1MzI5&f=wiejski_tuning_044.jpg

Problemy z atrybutami wyjściowymi
Źródło: https://upload.wikimedia.org/wikipedia/commons/thumb/9/92/CPT_Hardware-InputOutput.svg/1212px-CPT_Hardware-InputOutput.svg.png

Nieznani użytkownicy
• Z przygotowanego modelu korzystają inni - nie zawsze o
tym wiemy.
• Zmiana w modelu może mieć trudne do przewidzenia
skutki.

Nieznani użytkownicy - np. kaskady korekt
prognoza
pogody
kalendarz
liczba
(koszyków? osób?)
średnia
wartość
koszyka
obrót
sklepuA Bpromocje
dane
historyczne
A - przewiduje ruch w sklepie
B - przewiduje obrót sklepu
Źródło: http://www.seriouseats.com/images/2016/01/20160115-things-never-to-but-at-supermarket-.jpg

Udostępniamy informacje
o:
• tym co robimy/co mamy
w danych,
• sukcesach/porażkach.
Dokumentacja:
• „czysta” implementacja,
• jawne założenia -
powtarzalność wyników.
#1 Komunikacja
Źródła: http://hortonworks.com/wp-content/uploads/2013/05/hive_logo.png, http://blog.cleancoder.com/assets/clean_code_72_color.png,
http://www.charbase.com/images/glyph/8634, http://www.clipartbest.com/cliparts/ecM/kRB/ecMkRBBei.png
https://cwiki.apache.org/confluence/download/attachments/31822298/FALCON?version=1&modificationDate=1422616967000&api=v2

Atrybutów wejściowych:
• brakujące dane, nieznane wartości,
• testy statystyczne,
• korelacje,
• …
Atrybutów wyjściowych:
• bias, wybrane wartości centyli,
• wykrywanie anomalii,
• poziom błędu modelu,
• …
#2 Monitorowanie

#3 Eksperymenty
(kiedy nie jesteśmy w stanie monitorować poziomu błędu)
Źródło: http://www.mrcbiology.com/practical2jpg.jpg

Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowski Paweł Zawistowski

Recommended

Recommended

More Related Content

Similar to Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowski Paweł Zawistowski

Similar to Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowski Paweł Zawistowski (20)

More from Evention

More from Evention (20)

Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowski Paweł Zawistowski