2. Kim jesteśmy?
Michał Iwanowski
● absolwent Politechniki Warszawskiej
● 2.5 roku w IBM (Netezza):
○ hurtownie danych
○ machine learning, analityka
predykcyjna
○ zrównoleglanie algorytmów
● od lipca 2014 w CodiLime:
○ machine learning w praktyce:
consulting, konkursy na Kaggle.com
○ platforma DeepSense.io
● w tle:
○ analiza statystyczna danych
(medycyna, biologia)
Robert Pohnke
● absolwent Uniwersytetu Warszawskiego
● wcześniej praca w IBM, UBS, Goldman
Sachs
○ systemy rozproszone, machine
learning, tuning wysokowydajnych
aplikacji
● od lipca 2014 w CodiLime:
○ odpowiedzialny za rozwój biznesu oraz
pozyskiwanie nowych klientów
○ platforma DeepSense.io
3. Agenda
● O CodiLime
● Machine learning:
○ wprowadzenie, historia
○ rodzaje zagadnień
○ przykłady realnych problemów
○ bieżące trendy
● Big Data:
○ kiedy dane są już duże?
○ źródła danych, data lakes, IoT
○ problem skalowalności
● Technologie:
○ Hurtownie danych,
○ Hadoop + Map-Reduce
○ Spark
● Machine learning i Big Data w CodiLime:
○ DeepSense.io
○ kierunki rozwoju
4. O CodiLime
• Firma założona ponad 3 lata temu przez wybitnych algorytmików z
Wydziału Matematyki, Informatyki i Mechaniki Uniwersytetu
Warszawskiego
• Zwycięzcy i laureaci międzynardowych zawodów
programistycznych – International Olympics in Informatics,
TopCoder Open, Google Code Jam, ACM ICPC
• Doświadczenie w międzynarodowych firmach - Google, Facebook,
Microsoft, IBM, nVidia, Goldman Sachs, UBS
• Większość klientów pochodzi z Doliny Krzemowej
7. Historia
● Fundamenty: algorytmy klasyczne, sztuczna inteligencja
● Lata 80: systemy ekspertowe
● Lata 90: sieci neuronowe
● Machine learning a data mining
9. Machine learning - zagadnienia
Uczenie z nadzorem Uczenie bez nadzoru
znane “prawdziwe” etykiety brak etykiet
uczenie w oparciu o dane trenujące odkrywanie nieznanych wzorców
zastosowanie: predykcja zastosowanie: eksploracja
przykładowe zadania: klasyfikacja, regresja przykładowe zadania: grupowanie (clustering),
HMM
12. Trendy: Deep learning
● “Renesans” sieci neuronowych
● Automatyczna inżynieria cech (uczenie się reprezentacji danych)
● Złożone architektury sieci
● Nowe algorytmy uczenia
● Główne zastosowania:
○ widzenie maszynowe (rozpoznawanie obrazów),
○ rozpoznawanie mowy.
13. Deep learning: rezultat Google’a
● 9 warstw sieci
● 109
połączeń pomiędzy neuronami
● 10 mln obrazków 200x200 pikseli (kadry z YouTube)
● Klaster 1000 maszyn (16 000 rdzeni)
● Sieć trenowana 3 dni
17. Big Data - co to znaczy?
“Big Data is any data set too big to fit into Excel”
18. Big Data - co to znaczy?
● Dane niemożliwe (lub niepraktyczne) do
przetwarzania na pojedynczej maszynie.
19. Źródła dużych danych
Internet of Things (IoT):
“There will be nearly 26 billion devices on
the Internet of Things by 2020” - Gartner
Inc.:
● środki transportu,
● elektronika osobista,
● inteligentny dom,
● urządzenia przemysłowe,
● bio-chipy?
20. Źródła dużych danych
Data Lake:
Data Lake
CRMs Logs Mobile Apps
...
Data Center Infrastructure
Social media
21. Big Data a skalowalność
● Wzrost rozmiaru pamięci operacyjnej, dysków oraz mocy obliczeniowej nie
idzie w parze ze wzrostem objętości danych.
● Potrzeba skalowania poziomego (scale out).
+
scalingup
scaling out
22. Problemy w osiąganiu skalowalności
● Konieczność współdzielenia danych pomiędzy węzłami.
● Narzut na komunikację sieciową.
● Problem awaryjności węzłów: utrata zasobów, danych oraz wyników.
● Konieczność opracowania równoległych wersji algorytmów.
23. Architektura shared-nothing
● Istnieje N węzłów mających osobny zestaw rdzeni i osobną pamięć.
● Każdy z węzłów ma bezpośredni dostęp tylko do fragmentu danych.
● Istnieje możliwość komunikacji i przesyłu danych, ale jest to kosztowne.
31. Machine learning w CodiLime
● Zawody na Kaggle.com - największej platformie konkursowej skupiającej
data scientists z całego świata
● Projekt R&D oparte na Machine Learning oraz NLP dla klientów CodiLime
● DeepSense.io - platforma pozwalająca na zastosowanie algorytmów z
ML, statystyki oraz NLP na Big Data
32. Kaggle
• Największa społeczność skupiająca Data Scientists na świecie –
dziesiątki tysięcy naukowców z ponad 100 krajów,
reprezentujących ponad 200 uniwersytetów
• Zespół CodiLime regularnie zajmuje wysokie (top 5) lokaty
33. Realny case: Kaggle.com
Problem: predykcja składu gleb w Afryce.
Dane: wyniki spektrografii podczerwonej.
Cel: obniżenie kosztu metod pomiarowych.
Problem regresji (wielokrotnej, wielowymiarowej)
Team CodiLime: 3 miejsce spośród > 1200 zespołów