SlideShare a Scribd company logo
Big Data Analytics
Marcin Szeliga
• Filozof danych
• 20 lat doświadczenia z SQL Server
• MCSE: Data Platform & Business Intelligence
• MCSD: Azure Solutions Architect & Microsoft .NET
• Prezes Stowarzyszenia PLSSUG
• marcin@sqlexpert.pl | www.linkedin.com/in/marcinszeliga
Agenda
•Big Data, IoT, Machine Learning, Data Scientist
‐różowe jednorożce czy przyszłość informatyki?
•Czy warto zostać specjalistą od przechowywania,
przetwarzania i analizowania danych?
•Jeśli tak, na czym będzie polegała moja praca?
•I rada, która zmieni Państwa życie
Definicja Big Data
• Definicja Gartnera z 3V
‐ Big Volume
‐ Big Velocity
‐ Big Variety
• Również Value, Visualization,
Vomiting, Voodooed, etc.
• „Big data is when the size of
the data becomes part of the
problem”
‐ Roger Magoulas
Rewolucja Big Data
• Ilość przechowywanych danych
rośnie i to coraz szybciej
• ¾ z nich to dane nierelacyjne:
‐ Teksty
‐ Obrazy
‐ Multimedia
‐ Dane geograficzne
‐ Dane hierarchiczne
• Tradycyjne bazy danych nie nadążają
z ich przetwarzaniem6%
34%
25%
18%
17%
2%
17%
19%
21%
41%
0% 5% 10% 15% 20% 25% 30% 35% 40% 45%
NIE WIEM
PONAD 10 TB
3 - 10 TB
1 - 3 TB
MNIEJ NIŻ 1TB
Przybliżona ilość przechowywanych w hurtowniach danych
Dzisiaj Za 3 lata
Paradygmat Map - Reduce
• Krok mapujący
‐ Odczyt rekordu
‐ Przekształcenie do postaci
Klucz – Wartość
• Krok redukujący
‐ Pogrupowanie danych
‐ Obliczenie częściowego wyniku
• Kroki mogą się powtarzać
• Końcowy wynik jest zwracany
klientowi
Analiza danych z wykorzystaniem Map - Reduce
Konfiguracja węzła:
• CPU:
2 x 8 x 2.00GHz
• RAM: 128GB
• Dyski:
3 dyski SATA
7200rpm
(~120MB/s)
2247 MB/s
4014 MB/s
5374 MB/s
7053 MB/s
9069 MB/s
0 GB/s
1 GB/s
2 GB/s
3 GB/s
4 GB/s
5 GB/s
6 GB/s
7 GB/s
8 GB/s
9 GB/s
10 GB/s
0 10 20 30 40 50
Przepustowość
Liczba węzłów
Skalowalność systemów Hadoop
Co jest modne w tym sezonie?
Gartner 2015 Hype Cycle
• Co się stało z Big Data?
• Teraz mówi się o IoT i
Machine Learning
Internet Rzeczy
• Tworzony przez urządzenia
‐ Potrafiące się komunikować
‐ Identyfikowalne
‐ Posiadające jakąś przydatną
cechę
• Wysyłane przez nie dane
możemy
‐ Analizować strumieniowo
‐ Zapisać w Chmurze
• Ale potrzebujemy
odpowiedniej architektury,
która umożliwi współpracę
wszystkich tych urządzeń
Uczenie maszynowe
• Niektórych problemów nie
potrafimy rozwiązać
algorytmicznie
‐ Rozpoznawanie obrazów
• W niektórych wypadkach
algorytm byłby
nieefektywny i/lub zbyt
skomplikowany
‐ Wykrywanie anomalii
• Nauczymy maszyny
rozwiazywania tego typu
problemów na podstawie
danych historycznych
Data Scientist – najseksowniejsza czy najnudniejsza praca w IT?
• „Data scientists need to find nuggets of truth in data and
then explain it to the business leaders”
Rchard Snee, EMC
• „Person who is better at statistic than any software
engineer and better at software engineering that any
statistician”
Josh Wills
• Współczesny Leonardo da Vinci który:
‐ Dostrzega problemy i ich możliwe rozwiązania
‐ Potrafi programować
‐ Ma solidny warsztat statystyczny
‐ Zna algorytmy uczenia maszynowego
‐ Potrafi przedstawić wyniki analiz użytkownikom biznesowym
Wymagane kwalifikacje
• Moja rada:
• Język używany przez ponad
2 miliony specjalistów
• Darmowy i otwarty
• Ponad 6,500
specjalistycznych bibliotek
Wykrywanie oszustw
• Naszym zadaniem jest
wytypowanie dostawców
podejrzanych o zawyżanie
rachunków
• Dysponujemy listą
rachunków
• Prawo Benforda pozwoli
nam ocenić
prawdopodobieństwo
występowania pierwszych
cyfr kwot rachunków
• Zastosowanie rozkładu Benforda
pomogło w wykryciu fałszerstw
dokonanych przez Jamesa
Nelsona, głównego księgowego i
zarządzającego Arizona State
Treasurer
Co dalej?
• Znajomość prawa Benforda można wykorzystać w praktyce...
• Jeżeli jednak:
‐ Potrafimy programować, lepiej poznać platformę IoT
‐ Interesują nas dane i znamy SQL, lepiej nauczyć się R i statystyki
‐ Lubimy i potrafimy rozmawiać z ludźmi, lepiej nauczyć się R i zasad wizualizacji danych
‐ Potrafimy zadawać właściwe pytania i fascynuje nas sztuczna inteligencja, lepiej
nauczyć się R i algorytmów ML
• O wszystkich tych tematach będziemy opowiadać na 8. edycji konferencji SQL
DAY, od 16 do 18 maja, we Wrocławiu
• marcin@sqlexpert.pl | www.linkedin.com/in/marcinszeliga

More Related Content

Viewers also liked

Tips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi Millenials
Tips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi MillenialsTips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi Millenials
Tips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi Millenials
Abdurrahman Karim Zaidan
 
Communications
CommunicationsCommunications
Communications
behjoooo
 
TITANIC II
TITANIC IITITANIC II
TITANIC II
Balcon60
 
Narumon
NarumonNarumon
Narumon
cha29289
 
چند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.com
چند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.comچند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.com
چند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.com
minidars
 
Scrum e algo mais
Scrum e algo maisScrum e algo mais
Scrum e algo mais
Fagner Moura
 
Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде
Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде
Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде
Angel Relations Group
 
Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.
Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.
Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.
Jamal Mirza
 
Catálogo de Tradutores e Intérpretes
Catálogo de Tradutores e IntérpretesCatálogo de Tradutores e Intérpretes
Catálogo de Tradutores e Intérpretes
Catálogo de Tradutores
 
Stampa dati controllo ocr farmaceutico
Stampa dati controllo ocr farmaceuticoStampa dati controllo ocr farmaceutico
Stampa dati controllo ocr farmaceutico
Michele Lombardi
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data Science
Carlos Fuentes
 
Claves del lenguaje visual
Claves del lenguaje visualClaves del lenguaje visual
Claves del lenguaje visual
Ana Municio Zúñiga
 
Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...
Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...
Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...
Viktor Halasiuk, PhD
 

Viewers also liked (13)

Tips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi Millenials
Tips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi MillenialsTips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi Millenials
Tips Hasilkan Uang Melalui Affiliate Marketing Bagi Generasi Millenials
 
Communications
CommunicationsCommunications
Communications
 
TITANIC II
TITANIC IITITANIC II
TITANIC II
 
Narumon
NarumonNarumon
Narumon
 
چند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.com
چند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.comچند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.com
چند عادت مهم برای موفق شدن؟؟؟ برگرفته از opinno.com
 
Scrum e algo mais
Scrum e algo maisScrum e algo mais
Scrum e algo mais
 
Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде
Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде
Благотворительные фонды России: разные решения ОДНОЙ проблемы в digital-среде
 
Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.
Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.
Karbala Ki Yadgar Pyaas - Syedul Ulema Syed Ali Naqi Naqvi Sahab t.s.
 
Catálogo de Tradutores e Intérpretes
Catálogo de Tradutores e IntérpretesCatálogo de Tradutores e Intérpretes
Catálogo de Tradutores e Intérpretes
 
Stampa dati controllo ocr farmaceutico
Stampa dati controllo ocr farmaceuticoStampa dati controllo ocr farmaceutico
Stampa dati controllo ocr farmaceutico
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data Science
 
Claves del lenguaje visual
Claves del lenguaje visualClaves del lenguaje visual
Claves del lenguaje visual
 
Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...
Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...
Проект Рекомендацій парламентських слухань "РОЗВИТОК ПІДПРИЄМНИЦТВА В УКРАЇНІ...
 

Similar to Big Data Analytics

Big data big mystery ?
Big data  big mystery ?Big data  big mystery ?
Big data big mystery ?
Paweł Ociepka
 
Certyfikacja a Kariera w IT - Self Case Study
Certyfikacja a Kariera w IT - Self Case StudyCertyfikacja a Kariera w IT - Self Case Study
Certyfikacja a Kariera w IT - Self Case Study
Tobias Koprowski
 
Przegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjIPrzegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjI
byteLAKE
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
Artur Wronski
 
Jak budujemy inteligentnego asystenta biznesowego
Jak budujemy inteligentnego asystenta biznesowegoJak budujemy inteligentnego asystenta biznesowego
Jak budujemy inteligentnego asystenta biznesowego
2040.io
 
Data science - o co chodzi?
Data science - o co chodzi?Data science - o co chodzi?
Data science - o co chodzi?
Pawel Jarosz
 
Koprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeetKoprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeetmagda3695
 
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SeeQuality.net
 
Zawód: programista gier. Jak zacząć pracę w branży?
Zawód: programista gier. Jak zacząć pracę w branży?Zawód: programista gier. Jak zacząć pracę w branży?
Zawód: programista gier. Jak zacząć pracę w branży?
GameDesire Company
 
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierającaOprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Alicja Sieminska
 
Architektura Informacji (Polski)
Architektura Informacji (Polski)Architektura Informacji (Polski)
Architektura Informacji (Polski)
Eric Reiss
 
Machine learning and Big Data (lecture in Polish)
Machine learning and Big Data (lecture in Polish)Machine learning and Big Data (lecture in Polish)
Machine learning and Big Data (lecture in Polish)
Michal Iwanowski
 
Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?
Beyond.pl
 
20160405 Cloud Community Poznań - Cloud Analytics on Azure
20160405  Cloud Community Poznań - Cloud Analytics on Azure20160405  Cloud Community Poznań - Cloud Analytics on Azure
20160405 Cloud Community Poznań - Cloud Analytics on Azure
Łukasz Grala
 
Wyklad inauguracyjny
Wyklad inauguracyjnyWyklad inauguracyjny
Wyklad inauguracyjny
Radoslaw Kita
 
AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...
AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...
AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...
Łukasz Grala
 
Klasyfikacja wymagań jako sposób zarządzania nimi
Klasyfikacja wymagań jako sposób zarządzania nimiKlasyfikacja wymagań jako sposób zarządzania nimi
Klasyfikacja wymagań jako sposób zarządzania nimi
Jaroslaw Zelinski
 
Certyfikacja a Kariera IT - Self Case Study
Certyfikacja a Kariera IT - Self Case StudyCertyfikacja a Kariera IT - Self Case Study
Certyfikacja a Kariera IT - Self Case StudyTobias Koprowski
 
Microsoft ML - State of The Art Microsoft Machine Learning - Package R
Microsoft ML - State of The Art Microsoft Machine Learning - Package RMicrosoft ML - State of The Art Microsoft Machine Learning - Package R
Microsoft ML - State of The Art Microsoft Machine Learning - Package R
Łukasz Grala
 

Similar to Big Data Analytics (20)

Big data big mystery ?
Big data  big mystery ?Big data  big mystery ?
Big data big mystery ?
 
Certyfikacja a Kariera w IT - Self Case Study
Certyfikacja a Kariera w IT - Self Case StudyCertyfikacja a Kariera w IT - Self Case Study
Certyfikacja a Kariera w IT - Self Case Study
 
Przegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjIPrzegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjI
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
Jak budujemy inteligentnego asystenta biznesowego
Jak budujemy inteligentnego asystenta biznesowegoJak budujemy inteligentnego asystenta biznesowego
Jak budujemy inteligentnego asystenta biznesowego
 
Data science - o co chodzi?
Data science - o co chodzi?Data science - o co chodzi?
Data science - o co chodzi?
 
Koprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeetKoprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeet
 
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
 
Zawód: programista gier. Jak zacząć pracę w branży?
Zawód: programista gier. Jak zacząć pracę w branży?Zawód: programista gier. Jak zacząć pracę w branży?
Zawód: programista gier. Jak zacząć pracę w branży?
 
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierającaOprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
 
Architektura Informacji (Polski)
Architektura Informacji (Polski)Architektura Informacji (Polski)
Architektura Informacji (Polski)
 
Machine learning and Big Data (lecture in Polish)
Machine learning and Big Data (lecture in Polish)Machine learning and Big Data (lecture in Polish)
Machine learning and Big Data (lecture in Polish)
 
Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?
 
20160405 Cloud Community Poznań - Cloud Analytics on Azure
20160405  Cloud Community Poznań - Cloud Analytics on Azure20160405  Cloud Community Poznań - Cloud Analytics on Azure
20160405 Cloud Community Poznań - Cloud Analytics on Azure
 
Wyklad inauguracyjny
Wyklad inauguracyjnyWyklad inauguracyjny
Wyklad inauguracyjny
 
AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...
AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...
AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...
 
Klasyfikacja wymagań jako sposób zarządzania nimi
Klasyfikacja wymagań jako sposób zarządzania nimiKlasyfikacja wymagań jako sposób zarządzania nimi
Klasyfikacja wymagań jako sposób zarządzania nimi
 
Certyfikacja a Kariera IT - Self Case Study
Certyfikacja a Kariera IT - Self Case StudyCertyfikacja a Kariera IT - Self Case Study
Certyfikacja a Kariera IT - Self Case Study
 
Microsoft ML - State of The Art Microsoft Machine Learning - Package R
Microsoft ML - State of The Art Microsoft Machine Learning - Package RMicrosoft ML - State of The Art Microsoft Machine Learning - Package R
Microsoft ML - State of The Art Microsoft Machine Learning - Package R
 

Big Data Analytics

  • 2. Marcin Szeliga • Filozof danych • 20 lat doświadczenia z SQL Server • MCSE: Data Platform & Business Intelligence • MCSD: Azure Solutions Architect & Microsoft .NET • Prezes Stowarzyszenia PLSSUG • marcin@sqlexpert.pl | www.linkedin.com/in/marcinszeliga
  • 3. Agenda •Big Data, IoT, Machine Learning, Data Scientist ‐różowe jednorożce czy przyszłość informatyki? •Czy warto zostać specjalistą od przechowywania, przetwarzania i analizowania danych? •Jeśli tak, na czym będzie polegała moja praca? •I rada, która zmieni Państwa życie
  • 4. Definicja Big Data • Definicja Gartnera z 3V ‐ Big Volume ‐ Big Velocity ‐ Big Variety • Również Value, Visualization, Vomiting, Voodooed, etc. • „Big data is when the size of the data becomes part of the problem” ‐ Roger Magoulas
  • 5. Rewolucja Big Data • Ilość przechowywanych danych rośnie i to coraz szybciej • ¾ z nich to dane nierelacyjne: ‐ Teksty ‐ Obrazy ‐ Multimedia ‐ Dane geograficzne ‐ Dane hierarchiczne • Tradycyjne bazy danych nie nadążają z ich przetwarzaniem6% 34% 25% 18% 17% 2% 17% 19% 21% 41% 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% NIE WIEM PONAD 10 TB 3 - 10 TB 1 - 3 TB MNIEJ NIŻ 1TB Przybliżona ilość przechowywanych w hurtowniach danych Dzisiaj Za 3 lata
  • 6. Paradygmat Map - Reduce • Krok mapujący ‐ Odczyt rekordu ‐ Przekształcenie do postaci Klucz – Wartość • Krok redukujący ‐ Pogrupowanie danych ‐ Obliczenie częściowego wyniku • Kroki mogą się powtarzać • Końcowy wynik jest zwracany klientowi
  • 7. Analiza danych z wykorzystaniem Map - Reduce Konfiguracja węzła: • CPU: 2 x 8 x 2.00GHz • RAM: 128GB • Dyski: 3 dyski SATA 7200rpm (~120MB/s) 2247 MB/s 4014 MB/s 5374 MB/s 7053 MB/s 9069 MB/s 0 GB/s 1 GB/s 2 GB/s 3 GB/s 4 GB/s 5 GB/s 6 GB/s 7 GB/s 8 GB/s 9 GB/s 10 GB/s 0 10 20 30 40 50 Przepustowość Liczba węzłów Skalowalność systemów Hadoop
  • 8. Co jest modne w tym sezonie? Gartner 2015 Hype Cycle • Co się stało z Big Data? • Teraz mówi się o IoT i Machine Learning
  • 9. Internet Rzeczy • Tworzony przez urządzenia ‐ Potrafiące się komunikować ‐ Identyfikowalne ‐ Posiadające jakąś przydatną cechę • Wysyłane przez nie dane możemy ‐ Analizować strumieniowo ‐ Zapisać w Chmurze • Ale potrzebujemy odpowiedniej architektury, która umożliwi współpracę wszystkich tych urządzeń
  • 10. Uczenie maszynowe • Niektórych problemów nie potrafimy rozwiązać algorytmicznie ‐ Rozpoznawanie obrazów • W niektórych wypadkach algorytm byłby nieefektywny i/lub zbyt skomplikowany ‐ Wykrywanie anomalii • Nauczymy maszyny rozwiazywania tego typu problemów na podstawie danych historycznych
  • 11. Data Scientist – najseksowniejsza czy najnudniejsza praca w IT? • „Data scientists need to find nuggets of truth in data and then explain it to the business leaders” Rchard Snee, EMC • „Person who is better at statistic than any software engineer and better at software engineering that any statistician” Josh Wills • Współczesny Leonardo da Vinci który: ‐ Dostrzega problemy i ich możliwe rozwiązania ‐ Potrafi programować ‐ Ma solidny warsztat statystyczny ‐ Zna algorytmy uczenia maszynowego ‐ Potrafi przedstawić wyniki analiz użytkownikom biznesowym
  • 12. Wymagane kwalifikacje • Moja rada: • Język używany przez ponad 2 miliony specjalistów • Darmowy i otwarty • Ponad 6,500 specjalistycznych bibliotek
  • 13. Wykrywanie oszustw • Naszym zadaniem jest wytypowanie dostawców podejrzanych o zawyżanie rachunków • Dysponujemy listą rachunków • Prawo Benforda pozwoli nam ocenić prawdopodobieństwo występowania pierwszych cyfr kwot rachunków • Zastosowanie rozkładu Benforda pomogło w wykryciu fałszerstw dokonanych przez Jamesa Nelsona, głównego księgowego i zarządzającego Arizona State Treasurer
  • 14. Co dalej? • Znajomość prawa Benforda można wykorzystać w praktyce... • Jeżeli jednak: ‐ Potrafimy programować, lepiej poznać platformę IoT ‐ Interesują nas dane i znamy SQL, lepiej nauczyć się R i statystyki ‐ Lubimy i potrafimy rozmawiać z ludźmi, lepiej nauczyć się R i zasad wizualizacji danych ‐ Potrafimy zadawać właściwe pytania i fascynuje nas sztuczna inteligencja, lepiej nauczyć się R i algorytmów ML • O wszystkich tych tematach będziemy opowiadać na 8. edycji konferencji SQL DAY, od 16 do 18 maja, we Wrocławiu • marcin@sqlexpert.pl | www.linkedin.com/in/marcinszeliga