SlideShare a Scribd company logo
1 of 38
Download to read offline
Uczenie maszynowe a Big Data
Kim jesteśmy?
Michał Iwanowski
● absolwent Politechniki Warszawskiej
● 2.5 roku w IBM (Netezza):
○ hurtownie danych
○ machine learning, analityka
predykcyjna
○ zrównoleglanie algorytmów
● od lipca 2014 w CodiLime:
○ machine learning w praktyce:
consulting, konkursy na Kaggle.com
○ platforma DeepSense.io
● w tle:
○ analiza statystyczna danych
(medycyna, biologia)
Robert Pohnke
● absolwent Uniwersytetu Warszawskiego
● wcześniej praca w IBM, UBS, Goldman
Sachs
○ systemy rozproszone, machine
learning, tuning wysokowydajnych
aplikacji
● od lipca 2014 w CodiLime:
○ odpowiedzialny za rozwój biznesu oraz
pozyskiwanie nowych klientów
○ platforma DeepSense.io
Agenda
● O CodiLime
● Machine learning:
○ wprowadzenie, historia
○ rodzaje zagadnień
○ przykłady realnych problemów
○ bieżące trendy
● Big Data:
○ kiedy dane są już duże?
○ źródła danych, data lakes, IoT
○ problem skalowalności
● Technologie:
○ Hurtownie danych,
○ Hadoop + Map-Reduce
○ Spark
● Machine learning i Big Data w CodiLime:
○ DeepSense.io
○ kierunki rozwoju
O CodiLime
• Firma założona ponad 3 lata temu przez wybitnych algorytmików z
Wydziału Matematyki, Informatyki i Mechaniki Uniwersytetu
Warszawskiego
• Zwycięzcy i laureaci międzynardowych zawodów
programistycznych – International Olympics in Informatics,
TopCoder Open, Google Code Jam, ACM ICPC
• Doświadczenie w międzynarodowych firmach - Google, Facebook,
Microsoft, IBM, nVidia, Goldman Sachs, UBS
• Większość klientów pochodzi z Doliny Krzemowej
Machine learning
Wprowadzenie
Geneza
machine learning
sztuczna inteligencja
statystyka
algorytmy klasyczne
metody heurystyczne
modele biologiczne
Historia
● Fundamenty: algorytmy klasyczne, sztuczna inteligencja
● Lata 80: systemy ekspertowe
● Lata 90: sieci neuronowe
● Machine learning a data mining
Przykład
Machine learning - zagadnienia
Uczenie z nadzorem Uczenie bez nadzoru
znane “prawdziwe” etykiety brak etykiet
uczenie w oparciu o dane trenujące odkrywanie nieznanych wzorców
zastosowanie: predykcja zastosowanie: eksploracja
przykładowe zadania: klasyfikacja, regresja przykładowe zadania: grupowanie (clustering),
HMM
Uczenie z nadzorem
Klasyfikacja Regresja
Uczenie bez nadzoru
Grupowanie (clustering)
Trendy: Deep learning
● “Renesans” sieci neuronowych
● Automatyczna inżynieria cech (uczenie się reprezentacji danych)
● Złożone architektury sieci
● Nowe algorytmy uczenia
● Główne zastosowania:
○ widzenie maszynowe (rozpoznawanie obrazów),
○ rozpoznawanie mowy.
Deep learning: rezultat Google’a
● 9 warstw sieci
● 109
połączeń pomiędzy neuronami
● 10 mln obrazków 200x200 pikseli (kadry z YouTube)
● Klaster 1000 maszyn (16 000 rdzeni)
● Sieć trenowana 3 dni
Deep learning: rezultat Google’a
Trendy: NLP
Przetwarzanie języka naturalnego:
● automatyczne tłumaczenie,
● ekstrakcja wiedzy -> bazy wiedzy,
● analiza wydźwięku,
● kategoryzacja dokumentów.
Techniki:
● wektoryzacja (word2vec),
● hashowanie cech, uczenie on-line (vowpal wabbit),
● deep learning.
Big Data
Big Data - co to znaczy?
“Big Data is any data set too big to fit into Excel”
Big Data - co to znaczy?
● Dane niemożliwe (lub niepraktyczne) do
przetwarzania na pojedynczej maszynie.
Źródła dużych danych
Internet of Things (IoT):
“There will be nearly 26 billion devices on
the Internet of Things by 2020” - Gartner
Inc.:
● środki transportu,
● elektronika osobista,
● inteligentny dom,
● urządzenia przemysłowe,
● bio-chipy?
Źródła dużych danych
Data Lake:
Data Lake
CRMs Logs Mobile Apps
...
Data Center Infrastructure
Social media
Big Data a skalowalność
● Wzrost rozmiaru pamięci operacyjnej, dysków oraz mocy obliczeniowej nie
idzie w parze ze wzrostem objętości danych.
● Potrzeba skalowania poziomego (scale out).
+
scalingup
scaling out
Problemy w osiąganiu skalowalności
● Konieczność współdzielenia danych pomiędzy węzłami.
● Narzut na komunikację sieciową.
● Problem awaryjności węzłów: utrata zasobów, danych oraz wyników.
● Konieczność opracowania równoległych wersji algorytmów.
Architektura shared-nothing
● Istnieje N węzłów mających osobny zestaw rdzeni i osobną pamięć.
● Każdy z węzłów ma bezpośredni dostęp tylko do fragmentu danych.
● Istnieje możliwość komunikacji i przesyłu danych, ale jest to kosztowne.
Technologie
Czego można użyć?
Apache Hadoop
Apache Tez
Apache Storm
Apache Spark
Apache Spark - wydajność
Machine learning
w CodiLime
Machine learning w CodiLime
● Zawody na Kaggle.com - największej platformie konkursowej skupiającej
data scientists z całego świata
● Projekt R&D oparte na Machine Learning oraz NLP dla klientów CodiLime
● DeepSense.io - platforma pozwalająca na zastosowanie algorytmów z
ML, statystyki oraz NLP na Big Data
Kaggle
• Największa społeczność skupiająca Data Scientists na świecie –
dziesiątki tysięcy naukowców z ponad 100 krajów,
reprezentujących ponad 200 uniwersytetów
• Zespół CodiLime regularnie zajmuje wysokie (top 5) lokaty
Realny case: Kaggle.com
Problem: predykcja składu gleb w Afryce.
Dane: wyniki spektrografii podczerwonej.
Cel: obniżenie kosztu metod pomiarowych.
Problem regresji (wielokrotnej, wielowymiarowej)
Team CodiLime: 3 miejsce spośród > 1200 zespołów
Realny case: Kaggle.com
Zadanie:
K
P
CaML
Realny case: Kaggle.com
Metody:
● Inżynieria cech:
○ wygładzanie widma,
○ detekcja maksimów,
○ transformaty falkowe,
● Algorytmy:
○ sieci neuronowe,
○ regresja w oparciu o wektory wspierające (SVR),
○ lasy losowe (RF) oraz boosting (GBM),
● Meta-algorytmy:
○ autotuning modeli,
○ modele złożone (łączenie modeli).
Pytania?
Dziękujemy za uwagę!

More Related Content

Viewers also liked

Metody Deep Learning - Wykład 3
Metody Deep Learning - Wykład 3Metody Deep Learning - Wykład 3
Metody Deep Learning - Wykład 3Craftinity
 
Metody Deep Learning - Wykład 4
Metody Deep Learning - Wykład 4Metody Deep Learning - Wykład 4
Metody Deep Learning - Wykład 4Craftinity
 
Metody Deep Learning - Wykład 1
Metody Deep Learning - Wykład 1Metody Deep Learning - Wykład 1
Metody Deep Learning - Wykład 1Craftinity
 
Metody Deep Learning - Wykład 7
Metody Deep Learning - Wykład 7Metody Deep Learning - Wykład 7
Metody Deep Learning - Wykład 7Craftinity
 
Metody Deep Learning - Wykład 2
Metody Deep Learning - Wykład 2Metody Deep Learning - Wykład 2
Metody Deep Learning - Wykład 2Craftinity
 
Metody Deep Learning - Wykład 6
Metody Deep Learning - Wykład 6Metody Deep Learning - Wykład 6
Metody Deep Learning - Wykład 6Craftinity
 
(Azure) Machine Learning 2015
(Azure) Machine Learning 2015(Azure) Machine Learning 2015
(Azure) Machine Learning 2015Tomasz Kopacz
 
Metody Deep Learning - Wykład 5
Metody Deep Learning - Wykład 5Metody Deep Learning - Wykład 5
Metody Deep Learning - Wykład 5Craftinity
 
Predicting the risk of suicide using clinical notes
Predicting the risk of suicide using clinical notesPredicting the risk of suicide using clinical notes
Predicting the risk of suicide using clinical notesŻaneta Michalak
 
To co powinniście wiedzieć o Machine Learning
To co powinniście wiedzieć o Machine LearningTo co powinniście wiedzieć o Machine Learning
To co powinniście wiedzieć o Machine Learning3camp
 
Machine learning - hot or not?
Machine learning -  hot or not?Machine learning -  hot or not?
Machine learning - hot or not?mjaskowski
 
[WebMuses] Big data dla zdezorientowanych
[WebMuses] Big data dla zdezorientowanych[WebMuses] Big data dla zdezorientowanych
[WebMuses] Big data dla zdezorientowanychPrzemek Maciolek
 
Hacking Internet of Things
Hacking Internet of ThingsHacking Internet of Things
Hacking Internet of ThingsSecuRing
 
Machine learning on Hadoop data lakes
Machine learning on Hadoop data lakesMachine learning on Hadoop data lakes
Machine learning on Hadoop data lakesDataWorks Summit
 
Wyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary Glijer
Wyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary GlijerWyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary Glijer
Wyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary GlijerCezary Glijer
 

Viewers also liked (15)

Metody Deep Learning - Wykład 3
Metody Deep Learning - Wykład 3Metody Deep Learning - Wykład 3
Metody Deep Learning - Wykład 3
 
Metody Deep Learning - Wykład 4
Metody Deep Learning - Wykład 4Metody Deep Learning - Wykład 4
Metody Deep Learning - Wykład 4
 
Metody Deep Learning - Wykład 1
Metody Deep Learning - Wykład 1Metody Deep Learning - Wykład 1
Metody Deep Learning - Wykład 1
 
Metody Deep Learning - Wykład 7
Metody Deep Learning - Wykład 7Metody Deep Learning - Wykład 7
Metody Deep Learning - Wykład 7
 
Metody Deep Learning - Wykład 2
Metody Deep Learning - Wykład 2Metody Deep Learning - Wykład 2
Metody Deep Learning - Wykład 2
 
Metody Deep Learning - Wykład 6
Metody Deep Learning - Wykład 6Metody Deep Learning - Wykład 6
Metody Deep Learning - Wykład 6
 
(Azure) Machine Learning 2015
(Azure) Machine Learning 2015(Azure) Machine Learning 2015
(Azure) Machine Learning 2015
 
Metody Deep Learning - Wykład 5
Metody Deep Learning - Wykład 5Metody Deep Learning - Wykład 5
Metody Deep Learning - Wykład 5
 
Predicting the risk of suicide using clinical notes
Predicting the risk of suicide using clinical notesPredicting the risk of suicide using clinical notes
Predicting the risk of suicide using clinical notes
 
To co powinniście wiedzieć o Machine Learning
To co powinniście wiedzieć o Machine LearningTo co powinniście wiedzieć o Machine Learning
To co powinniście wiedzieć o Machine Learning
 
Machine learning - hot or not?
Machine learning -  hot or not?Machine learning -  hot or not?
Machine learning - hot or not?
 
[WebMuses] Big data dla zdezorientowanych
[WebMuses] Big data dla zdezorientowanych[WebMuses] Big data dla zdezorientowanych
[WebMuses] Big data dla zdezorientowanych
 
Hacking Internet of Things
Hacking Internet of ThingsHacking Internet of Things
Hacking Internet of Things
 
Machine learning on Hadoop data lakes
Machine learning on Hadoop data lakesMachine learning on Hadoop data lakes
Machine learning on Hadoop data lakes
 
Wyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary Glijer
Wyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary GlijerWyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary Glijer
Wyniki wyszukiwania Google w 2016 - XIX Semcamp Cezary Glijer
 

Similar to Machine learning and Big Data (lecture in Polish)

[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
 
Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowsk...
Machine learning vs big data   od pomysłu do produkcji - Bartłomiej Twardowsk...Machine learning vs big data   od pomysłu do produkcji - Bartłomiej Twardowsk...
Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowsk...Evention
 
Oprogramowanie Open Source w instytucjach publicznych
Oprogramowanie Open Source w instytucjach publicznychOprogramowanie Open Source w instytucjach publicznych
Oprogramowanie Open Source w instytucjach publicznychAleksander Korzyński
 
Jak przygotować dane do uczenia maszynowego? | Ermlab Software
Jak przygotować dane do uczenia maszynowego? | Ermlab SoftwareJak przygotować dane do uczenia maszynowego? | Ermlab Software
Jak przygotować dane do uczenia maszynowego? | Ermlab SoftwareErmlab Software
 
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danychkalaxq
 
Od Czarnoksiężnik z krainy Oz do modeli na produkcji
Od Czarnoksiężnik z krainy Oz do modeli na produkcjiOd Czarnoksiężnik z krainy Oz do modeli na produkcji
Od Czarnoksiężnik z krainy Oz do modeli na produkcjiArtur Skowroński
 
IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl 3camp
 
Dlaczego warto się uczyć technologii Big Data - Dzień IT WSInf
Dlaczego warto się uczyć technologii Big Data - Dzień IT WSInfDlaczego warto się uczyć technologii Big Data - Dzień IT WSInf
Dlaczego warto się uczyć technologii Big Data - Dzień IT WSInfTomasz Rostkowski
 
PRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCA
PRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCAPRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCA
PRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCAArtur Gunia
 
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...Squiz Poland
 
Jelonek Synkreo 2010 03
Jelonek Synkreo 2010 03Jelonek Synkreo 2010 03
Jelonek Synkreo 2010 03Synkreo
 
Technik.teleinformatyk 312[02] z1.02_u
Technik.teleinformatyk 312[02] z1.02_uTechnik.teleinformatyk 312[02] z1.02_u
Technik.teleinformatyk 312[02] z1.02_uRzeźnik Sebastian
 
Head First Object-Oriented Analysis and Design. Edycja polska
Head First Object-Oriented Analysis and Design. Edycja polskaHead First Object-Oriented Analysis and Design. Edycja polska
Head First Object-Oriented Analysis and Design. Edycja polskaWydawnictwo Helion
 
Big data w strategii marketingowej
Big data w strategii marketingowejBig data w strategii marketingowej
Big data w strategii marketingowejgrey tree sp z o.o.
 

Similar to Machine learning and Big Data (lecture in Polish) (20)

[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowsk...
Machine learning vs big data   od pomysłu do produkcji - Bartłomiej Twardowsk...Machine learning vs big data   od pomysłu do produkcji - Bartłomiej Twardowsk...
Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowsk...
 
8 jaromir dzialo
8 jaromir dzialo8 jaromir dzialo
8 jaromir dzialo
 
Oprogramowanie Open Source w instytucjach publicznych
Oprogramowanie Open Source w instytucjach publicznychOprogramowanie Open Source w instytucjach publicznych
Oprogramowanie Open Source w instytucjach publicznych
 
Prezentacja SKISR
Prezentacja SKISRPrezentacja SKISR
Prezentacja SKISR
 
Jak przygotować dane do uczenia maszynowego? | Ermlab Software
Jak przygotować dane do uczenia maszynowego? | Ermlab SoftwareJak przygotować dane do uczenia maszynowego? | Ermlab Software
Jak przygotować dane do uczenia maszynowego? | Ermlab Software
 
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
 
Od Czarnoksiężnik z krainy Oz do modeli na produkcji
Od Czarnoksiężnik z krainy Oz do modeli na produkcjiOd Czarnoksiężnik z krainy Oz do modeli na produkcji
Od Czarnoksiężnik z krainy Oz do modeli na produkcji
 
It od kuchni w nokaut.pl
It od kuchni w nokaut.plIt od kuchni w nokaut.pl
It od kuchni w nokaut.pl
 
IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl
 
Dlaczego warto się uczyć technologii Big Data - Dzień IT WSInf
Dlaczego warto się uczyć technologii Big Data - Dzień IT WSInfDlaczego warto się uczyć technologii Big Data - Dzień IT WSInf
Dlaczego warto się uczyć technologii Big Data - Dzień IT WSInf
 
Encoder
EncoderEncoder
Encoder
 
PRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCA
PRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCAPRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCA
PRZEGLĄD NARZĘDZI W WARSZTACIE OTWARTEGO NAUKOWCA
 
MongoDB 2011
MongoDB 2011MongoDB 2011
MongoDB 2011
 
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Jelonek Synkreo 2010 03
Jelonek Synkreo 2010 03Jelonek Synkreo 2010 03
Jelonek Synkreo 2010 03
 
Technik.teleinformatyk 312[02] z1.02_u
Technik.teleinformatyk 312[02] z1.02_uTechnik.teleinformatyk 312[02] z1.02_u
Technik.teleinformatyk 312[02] z1.02_u
 
Head First Object-Oriented Analysis and Design. Edycja polska
Head First Object-Oriented Analysis and Design. Edycja polskaHead First Object-Oriented Analysis and Design. Edycja polska
Head First Object-Oriented Analysis and Design. Edycja polska
 
Big data w strategii marketingowej
Big data w strategii marketingowejBig data w strategii marketingowej
Big data w strategii marketingowej
 

Machine learning and Big Data (lecture in Polish)

  • 2. Kim jesteśmy? Michał Iwanowski ● absolwent Politechniki Warszawskiej ● 2.5 roku w IBM (Netezza): ○ hurtownie danych ○ machine learning, analityka predykcyjna ○ zrównoleglanie algorytmów ● od lipca 2014 w CodiLime: ○ machine learning w praktyce: consulting, konkursy na Kaggle.com ○ platforma DeepSense.io ● w tle: ○ analiza statystyczna danych (medycyna, biologia) Robert Pohnke ● absolwent Uniwersytetu Warszawskiego ● wcześniej praca w IBM, UBS, Goldman Sachs ○ systemy rozproszone, machine learning, tuning wysokowydajnych aplikacji ● od lipca 2014 w CodiLime: ○ odpowiedzialny za rozwój biznesu oraz pozyskiwanie nowych klientów ○ platforma DeepSense.io
  • 3. Agenda ● O CodiLime ● Machine learning: ○ wprowadzenie, historia ○ rodzaje zagadnień ○ przykłady realnych problemów ○ bieżące trendy ● Big Data: ○ kiedy dane są już duże? ○ źródła danych, data lakes, IoT ○ problem skalowalności ● Technologie: ○ Hurtownie danych, ○ Hadoop + Map-Reduce ○ Spark ● Machine learning i Big Data w CodiLime: ○ DeepSense.io ○ kierunki rozwoju
  • 4. O CodiLime • Firma założona ponad 3 lata temu przez wybitnych algorytmików z Wydziału Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego • Zwycięzcy i laureaci międzynardowych zawodów programistycznych – International Olympics in Informatics, TopCoder Open, Google Code Jam, ACM ICPC • Doświadczenie w międzynarodowych firmach - Google, Facebook, Microsoft, IBM, nVidia, Goldman Sachs, UBS • Większość klientów pochodzi z Doliny Krzemowej
  • 6. Geneza machine learning sztuczna inteligencja statystyka algorytmy klasyczne metody heurystyczne modele biologiczne
  • 7. Historia ● Fundamenty: algorytmy klasyczne, sztuczna inteligencja ● Lata 80: systemy ekspertowe ● Lata 90: sieci neuronowe ● Machine learning a data mining
  • 9. Machine learning - zagadnienia Uczenie z nadzorem Uczenie bez nadzoru znane “prawdziwe” etykiety brak etykiet uczenie w oparciu o dane trenujące odkrywanie nieznanych wzorców zastosowanie: predykcja zastosowanie: eksploracja przykładowe zadania: klasyfikacja, regresja przykładowe zadania: grupowanie (clustering), HMM
  • 12. Trendy: Deep learning ● “Renesans” sieci neuronowych ● Automatyczna inżynieria cech (uczenie się reprezentacji danych) ● Złożone architektury sieci ● Nowe algorytmy uczenia ● Główne zastosowania: ○ widzenie maszynowe (rozpoznawanie obrazów), ○ rozpoznawanie mowy.
  • 13. Deep learning: rezultat Google’a ● 9 warstw sieci ● 109 połączeń pomiędzy neuronami ● 10 mln obrazków 200x200 pikseli (kadry z YouTube) ● Klaster 1000 maszyn (16 000 rdzeni) ● Sieć trenowana 3 dni
  • 15. Trendy: NLP Przetwarzanie języka naturalnego: ● automatyczne tłumaczenie, ● ekstrakcja wiedzy -> bazy wiedzy, ● analiza wydźwięku, ● kategoryzacja dokumentów. Techniki: ● wektoryzacja (word2vec), ● hashowanie cech, uczenie on-line (vowpal wabbit), ● deep learning.
  • 17. Big Data - co to znaczy? “Big Data is any data set too big to fit into Excel”
  • 18. Big Data - co to znaczy? ● Dane niemożliwe (lub niepraktyczne) do przetwarzania na pojedynczej maszynie.
  • 19. Źródła dużych danych Internet of Things (IoT): “There will be nearly 26 billion devices on the Internet of Things by 2020” - Gartner Inc.: ● środki transportu, ● elektronika osobista, ● inteligentny dom, ● urządzenia przemysłowe, ● bio-chipy?
  • 20. Źródła dużych danych Data Lake: Data Lake CRMs Logs Mobile Apps ... Data Center Infrastructure Social media
  • 21. Big Data a skalowalność ● Wzrost rozmiaru pamięci operacyjnej, dysków oraz mocy obliczeniowej nie idzie w parze ze wzrostem objętości danych. ● Potrzeba skalowania poziomego (scale out). + scalingup scaling out
  • 22. Problemy w osiąganiu skalowalności ● Konieczność współdzielenia danych pomiędzy węzłami. ● Narzut na komunikację sieciową. ● Problem awaryjności węzłów: utrata zasobów, danych oraz wyników. ● Konieczność opracowania równoległych wersji algorytmów.
  • 23. Architektura shared-nothing ● Istnieje N węzłów mających osobny zestaw rdzeni i osobną pamięć. ● Każdy z węzłów ma bezpośredni dostęp tylko do fragmentu danych. ● Istnieje możliwość komunikacji i przesyłu danych, ale jest to kosztowne.
  • 29. Apache Spark - wydajność
  • 31. Machine learning w CodiLime ● Zawody na Kaggle.com - największej platformie konkursowej skupiającej data scientists z całego świata ● Projekt R&D oparte na Machine Learning oraz NLP dla klientów CodiLime ● DeepSense.io - platforma pozwalająca na zastosowanie algorytmów z ML, statystyki oraz NLP na Big Data
  • 32. Kaggle • Największa społeczność skupiająca Data Scientists na świecie – dziesiątki tysięcy naukowców z ponad 100 krajów, reprezentujących ponad 200 uniwersytetów • Zespół CodiLime regularnie zajmuje wysokie (top 5) lokaty
  • 33. Realny case: Kaggle.com Problem: predykcja składu gleb w Afryce. Dane: wyniki spektrografii podczerwonej. Cel: obniżenie kosztu metod pomiarowych. Problem regresji (wielokrotnej, wielowymiarowej) Team CodiLime: 3 miejsce spośród > 1200 zespołów
  • 35. Realny case: Kaggle.com Metody: ● Inżynieria cech: ○ wygładzanie widma, ○ detekcja maksimów, ○ transformaty falkowe, ● Algorytmy: ○ sieci neuronowe, ○ regresja w oparciu o wektory wspierające (SVR), ○ lasy losowe (RF) oraz boosting (GBM), ● Meta-algorytmy: ○ autotuning modeli, ○ modele złożone (łączenie modeli).
  • 36.