SlideShare a Scribd company logo
1 of 29
AzureDay Poland
Warszawa 2016
Łukasz Graala | TIDK
Stream Analytics &
Azure Machine Learning
@Łukasz Grala – lukasz@tidk.pl
• Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK
• Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach
• Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów
• Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP
• Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych,
uczenie maszynowe)
• Prelegent na licznych konferencjach w kraju i na świecie
• Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…)
• Członek Polskiego Towarzystwa Informatycznego
• Członek i lider Polish SQL Server User Group (PLSSUG)
• Pasjonat analizy, przechowywania i przetwarzania danych, miłośniku Jazzu
Data (Big Data)
• 72 hours of video are uploaded per minute on YouTube (1 terabyte
every 4 minutes)
• 500 terabytes of new data per day are ingested in Facebook
databases
• Sensors from a Boeing jet engine create 20 terabytes
of data every hour
• The proposed Square Kilometer Array telescope will generate “a few
Exabytes of data per day” (single beam)
lukasz@tidk.pl
Internet of Things (IoT)
lukasz@tidk.pl
New BI Solutions
ETL Tool
(SSIS, etc) EDW
(SQL Server, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Scale-out
Storage &
Compute
(HDFS, Blob Storage,
etc)
Transform & Load
Data Marts
Data Lake(s)
Dashboards
Apps
Streaming data
lukasz@tidk.pl
lukasz@tidk.pl
Stream Analytics
lukasz@tidk.pl
Azure Stream Analytics
Point of
Service Devices
Self Checkout
Stations
Kiosks
Smart
Phones
Slates/
Tablets
PCs/
Laptops
Servers
Digital
Signs
Diagnostic
EquipmentRemote Medical
Monitors
Logic
Controllers
Specialized
DevicesThin
Clients
Handhelds
Security
POS
Terminals
Automation
Devices
Vending
Machines
Kinect
ATM
lukasz@tidk.pl
SELECT count(*), Topic FROM Tweets
GROUP BY Topic, TumblingWindow(second, 5)
Let’s count tweets by topic…
Stream Analytics Query Language
Built-in
Functions
Data Types
Query
Language
Elements
Time
Management
Stream Analytics QL – Data Types
• Bigint
• Float
• Nvarchar(max)
• Datetime
• Record
• Array
Stream Analytics QL – Built-in Functions
Aggregate
•AVG
•COUNT
•CollectTop
•MAX
•MIN
•STDEV
•STDEVP
•SUM
•TopOne
•VAR
•VARP
Analytic
•ISFIRST
•LAG
•LAST
Record
•GetRecordProperties
•GetRecordPropertyValue
Scalar
•Conversion
•Data and Time
•Mathematical
•String
Stream Analytics QL – Scalar Functions
Conversion
• CAST
• TRY_CAST
• GetType
Data and Time
• DATENAME
• DATEPART
• DAY
• MONTH
• YEAR
• DATETIMEFROMPARTS
• DATEDIFF
• DATEADD
Mathematical
• ABS
• CEILING
• EXP
• FLOOR
• POWER
• SIGN
• SQUARE
• SQRT
String
• LEN
• CONCAT
• CHARINDEX
• LOWER
• SUBSTRING
• PATINDEX
• UPPER
Group By - Windowing
TUMBLING WINDOW
HOPPING WINDOW
SLIDING WINDOW
Group By – Windowing - Tumbling
SELECT count(*), Topic FROM Tweets
GROUP BY Topic, TumblingWindow(second, 5)
TUMBLINGWINDOW ( timeunit , windowsize, [offsetsize] )
TUMBLINGWINDOW ( Duration( timeunit , windowsize ), [Offset(timeunit , offsetsize)] )
Group By – Windowing - Hoppingwindow
SELECT System.TimeStamp, Topic, COUNT(*)
FROM Tweets BY EntryTime
GROUP BY Topic, HoppingWindow(second, 10, 5)
HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] )
HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
Group By – Windowing - Hoppingwindow
SELECT System.TimeStamp, Topic, COUNT(*)
FROM Tweets BY EntryTime
GROUP BY Topic, HoppingWindow(second, 10, 5)
HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] )
HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
lukasz@tidk.pl
Canonical Event-driven Scenario
lukasz@tidk.pl
Machine Learning
Key Concept – Machine Learning
Data
Model
Parameters
Learning Prediction
Decision Making
Utility Function
lukasz@tidk.pl
Class Learning Problems
• Classification: Assign a category to each item (Chinese | French
| Indian | Italian | Japanese restaurant).
• Regression: Predict a real value for each item
(stock/currency value, temperature).
• Ranking: Order items according to some criterion
(web search results relevant to a user query).
• Clustering: Partition items into homogeneous groups
(clustering twitter posts by topic).
• Dimensionality reduction: Transform an initial representation of items
into a lower-dimensional representation while preserving some
properties (preprocessing of digital images).
lukasz@tidk.pl
Steps to Build Machine Learning Solution
lukasz@tidk.pl
Azure Machine Learning
lukasz@tidk.pl
Azure Machine Learning
lukasz@tidk.pl
Microsoft Solution (example)
lukasz@tidk.pl
lukasz@tidk.pl
Question?
lukasz@tidk.pl
• 16-18 maj 2016
• Wrocław Centrum Konferencyjne
• 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji
• 600 uczestników + sponsorzy + prelegenci + organizatorzy
• Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii, Słoweni
• Premiera techniczna SQL Server 2016
sqlday.pl @sqlday
lukasz@tidk.pl
Masterclass: Cloud Storage
23-25.05.2016, Warszawa
Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w
chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w
Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z
HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i
Hadoop, Wirtualne maszyny
Masterclass: Cloud Analytics
20-22.06.2016, Warszawa
Data Catalog, Data Factory, Data LakePower, BI i dane relacyjne w
chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych,
Analiza z baz danych dokumentowych i grafowych, Uczenie
maszynowe, Polybase w SQL Server 2016
Łukasz Grala
Data Platform MVP,
MCT, MCSE, MCSA,
MCITP, MCSA,
MCP, MTA
Łukasz o szkoleniach:
„Danych produkowanych jest
więcej niż kiedykolwiek, pochodzą
z sieci Internet, z portali społecznościowych, z
urządzeń. Bardzo duży rozwój Internetu Rzeczy
(IoT) ilość tych danych jeszcze bardziej
zwiększa. Dlatego przygotowaliśmy dwa
specjalne kursy Cloud Storage i Cloud Analytics,
przedstawiające mechanizmy składowania,
przetwarzania i analizy danych z
wykorzystaniem chmury.”
Big Data, BI, Analityka, SQL
Standard -25% na hasło AzureDaywww.hexcode.pl
20160309   AzureDay 2016 - Azure Stream Analytics & Azure Machine Learning

More Related Content

Similar to 20160309 AzureDay 2016 - Azure Stream Analytics & Azure Machine Learning

AzureDay - What is Machine Learnin?
AzureDay - What is Machine Learnin?AzureDay - What is Machine Learnin?
AzureDay - What is Machine Learnin?Łukasz Grala
 
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...Elitmind
 
Jak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkJak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkHighWheelSoftware
 
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PROIDEA
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
 
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski Elitmind
 
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuHighWheelSoftware
 
Nowości w zakresie bezpieczeństwa w SQL Server 2016
Nowości w zakresie bezpieczeństwa w SQL Server 2016Nowości w zakresie bezpieczeństwa w SQL Server 2016
Nowości w zakresie bezpieczeństwa w SQL Server 2016Kamil Nowinski
 
Koprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeetKoprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeetmagda3695
 
Citrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFACitrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFAPawel Serwan
 
Rozproszona i asynchroniczna architektura - case study - Spread it
Rozproszona i asynchroniczna architektura - case study - Spread itRozproszona i asynchroniczna architektura - case study - Spread it
Rozproszona i asynchroniczna architektura - case study - Spread itKrzysztof Szabelski
 
Wprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotWprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotKamil Nowinski
 
Praca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives DataPraca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives Data9LivesData
 
Programowanie Równolegle - Parallel Extensions
Programowanie Równolegle - Parallel ExtensionsProgramowanie Równolegle - Parallel Extensions
Programowanie Równolegle - Parallel ExtensionsWojciech Grześkowiak
 
Maintenance_Plans_Zupełnie_Znienacka
Maintenance_Plans_Zupełnie_ZnienackaMaintenance_Plans_Zupełnie_Znienacka
Maintenance_Plans_Zupełnie_ZnienackaTobias Koprowski
 
Wjug from java to big data
Wjug   from java to big dataWjug   from java to big data
Wjug from java to big dataPiotr Guzik
 

Similar to 20160309 AzureDay 2016 - Azure Stream Analytics & Azure Machine Learning (20)

AzureDay - What is Machine Learnin?
AzureDay - What is Machine Learnin?AzureDay - What is Machine Learnin?
AzureDay - What is Machine Learnin?
 
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
 
Jak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkJak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFramework
 
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski
 
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
 
Sql day2015 fts
Sql day2015 ftsSql day2015 fts
Sql day2015 fts
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 roku
 
Nowości w zakresie bezpieczeństwa w SQL Server 2016
Nowości w zakresie bezpieczeństwa w SQL Server 2016Nowości w zakresie bezpieczeństwa w SQL Server 2016
Nowości w zakresie bezpieczeństwa w SQL Server 2016
 
Monitoring sieci
Monitoring sieciMonitoring sieci
Monitoring sieci
 
Koprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeetKoprowski t certyfikacja_a_kariera_it_infomeet
Koprowski t certyfikacja_a_kariera_it_infomeet
 
Citrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFACitrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFA
 
Rozproszona i asynchroniczna architektura - case study - Spread it
Rozproszona i asynchroniczna architektura - case study - Spread itRozproszona i asynchroniczna architektura - case study - Spread it
Rozproszona i asynchroniczna architektura - case study - Spread it
 
Wprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotWprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivot
 
Praca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives DataPraca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives Data
 
Programowanie Równolegle - Parallel Extensions
Programowanie Równolegle - Parallel ExtensionsProgramowanie Równolegle - Parallel Extensions
Programowanie Równolegle - Parallel Extensions
 
Maintenance_Plans_Zupełnie_Znienacka
Maintenance_Plans_Zupełnie_ZnienackaMaintenance_Plans_Zupełnie_Znienacka
Maintenance_Plans_Zupełnie_Znienacka
 
Wjug from java to big data
Wjug   from java to big dataWjug   from java to big data
Wjug from java to big data
 
Jakiego koloru jest Internet?
Jakiego koloru jest Internet?Jakiego koloru jest Internet?
Jakiego koloru jest Internet?
 

More from Łukasz Grala

Cognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from MicrosoftCognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from MicrosoftŁukasz Grala
 
DataMass Summit - Machine Learning for Big Data in SQL Server
DataMass Summit - Machine Learning for Big Data  in SQL ServerDataMass Summit - Machine Learning for Big Data  in SQL Server
DataMass Summit - Machine Learning for Big Data in SQL ServerŁukasz Grala
 
WhyR? Analiza sentymentu
WhyR? Analiza sentymentuWhyR? Analiza sentymentu
WhyR? Analiza sentymentuŁukasz Grala
 
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightAnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightŁukasz Grala
 
eRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability ReRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability RŁukasz Grala
 
AzureDay - Introduction Big Data Analytics.
AzureDay  - Introduction Big Data Analytics.AzureDay  - Introduction Big Data Analytics.
AzureDay - Introduction Big Data Analytics.Łukasz Grala
 
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...Łukasz Grala
 
3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sqlŁukasz Grala
 
20160317 - PAZUR - PowerBI & R
20160317  - PAZUR - PowerBI & R20160317  - PAZUR - PowerBI & R
20160317 - PAZUR - PowerBI & RŁukasz Grala
 
Prescriptive Analytics
Prescriptive AnalyticsPrescriptive Analytics
Prescriptive AnalyticsŁukasz Grala
 
DAC4B 2015 - Polybase
DAC4B 2015 - PolybaseDAC4B 2015 - Polybase
DAC4B 2015 - PolybaseŁukasz Grala
 
Expert summit SQL Server 2016
Expert summit   SQL Server 2016Expert summit   SQL Server 2016
Expert summit SQL Server 2016Łukasz Grala
 
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...Łukasz Grala
 
Pre mts Sharepoint 2010 i SQL Server 2012
Pre mts   Sharepoint 2010 i SQL Server 2012Pre mts   Sharepoint 2010 i SQL Server 2012
Pre mts Sharepoint 2010 i SQL Server 2012Łukasz Grala
 
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz gralaŁukasz Grala
 
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz gralaŁukasz Grala
 
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas..."SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...Łukasz Grala
 
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampReprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampŁukasz Grala
 
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...Łukasz Grala
 

More from Łukasz Grala (19)

Cognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from MicrosoftCognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from Microsoft
 
DataMass Summit - Machine Learning for Big Data in SQL Server
DataMass Summit - Machine Learning for Big Data  in SQL ServerDataMass Summit - Machine Learning for Big Data  in SQL Server
DataMass Summit - Machine Learning for Big Data in SQL Server
 
WhyR? Analiza sentymentu
WhyR? Analiza sentymentuWhyR? Analiza sentymentu
WhyR? Analiza sentymentu
 
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightAnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
 
eRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability ReRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability R
 
AzureDay - Introduction Big Data Analytics.
AzureDay  - Introduction Big Data Analytics.AzureDay  - Introduction Big Data Analytics.
AzureDay - Introduction Big Data Analytics.
 
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
 
3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql
 
20160317 - PAZUR - PowerBI & R
20160317  - PAZUR - PowerBI & R20160317  - PAZUR - PowerBI & R
20160317 - PAZUR - PowerBI & R
 
Prescriptive Analytics
Prescriptive AnalyticsPrescriptive Analytics
Prescriptive Analytics
 
DAC4B 2015 - Polybase
DAC4B 2015 - PolybaseDAC4B 2015 - Polybase
DAC4B 2015 - Polybase
 
Expert summit SQL Server 2016
Expert summit   SQL Server 2016Expert summit   SQL Server 2016
Expert summit SQL Server 2016
 
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
 
Pre mts Sharepoint 2010 i SQL Server 2012
Pre mts   Sharepoint 2010 i SQL Server 2012Pre mts   Sharepoint 2010 i SQL Server 2012
Pre mts Sharepoint 2010 i SQL Server 2012
 
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
 
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
 
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas..."SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
 
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampReprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
 
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
 

20160309 AzureDay 2016 - Azure Stream Analytics & Azure Machine Learning

  • 2. Łukasz Graala | TIDK Stream Analytics & Azure Machine Learning
  • 3. @Łukasz Grala – lukasz@tidk.pl • Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK • Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach • Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów • Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP • Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych, uczenie maszynowe) • Prelegent na licznych konferencjach w kraju i na świecie • Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…) • Członek Polskiego Towarzystwa Informatycznego • Członek i lider Polish SQL Server User Group (PLSSUG) • Pasjonat analizy, przechowywania i przetwarzania danych, miłośniku Jazzu
  • 4. Data (Big Data) • 72 hours of video are uploaded per minute on YouTube (1 terabyte every 4 minutes) • 500 terabytes of new data per day are ingested in Facebook databases • Sensors from a Boeing jet engine create 20 terabytes of data every hour • The proposed Square Kilometer Array telescope will generate “a few Exabytes of data per day” (single beam) lukasz@tidk.pl
  • 5. Internet of Things (IoT) lukasz@tidk.pl
  • 6. New BI Solutions ETL Tool (SSIS, etc) EDW (SQL Server, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Ingest (EL) Original Data Scale-out Storage & Compute (HDFS, Blob Storage, etc) Transform & Load Data Marts Data Lake(s) Dashboards Apps Streaming data lukasz@tidk.pl
  • 8. lukasz@tidk.pl Azure Stream Analytics Point of Service Devices Self Checkout Stations Kiosks Smart Phones Slates/ Tablets PCs/ Laptops Servers Digital Signs Diagnostic EquipmentRemote Medical Monitors Logic Controllers Specialized DevicesThin Clients Handhelds Security POS Terminals Automation Devices Vending Machines Kinect ATM
  • 9. lukasz@tidk.pl SELECT count(*), Topic FROM Tweets GROUP BY Topic, TumblingWindow(second, 5) Let’s count tweets by topic…
  • 10. Stream Analytics Query Language Built-in Functions Data Types Query Language Elements Time Management
  • 11. Stream Analytics QL – Data Types • Bigint • Float • Nvarchar(max) • Datetime • Record • Array
  • 12. Stream Analytics QL – Built-in Functions Aggregate •AVG •COUNT •CollectTop •MAX •MIN •STDEV •STDEVP •SUM •TopOne •VAR •VARP Analytic •ISFIRST •LAG •LAST Record •GetRecordProperties •GetRecordPropertyValue Scalar •Conversion •Data and Time •Mathematical •String
  • 13. Stream Analytics QL – Scalar Functions Conversion • CAST • TRY_CAST • GetType Data and Time • DATENAME • DATEPART • DAY • MONTH • YEAR • DATETIMEFROMPARTS • DATEDIFF • DATEADD Mathematical • ABS • CEILING • EXP • FLOOR • POWER • SIGN • SQUARE • SQRT String • LEN • CONCAT • CHARINDEX • LOWER • SUBSTRING • PATINDEX • UPPER
  • 14. Group By - Windowing TUMBLING WINDOW HOPPING WINDOW SLIDING WINDOW
  • 15. Group By – Windowing - Tumbling SELECT count(*), Topic FROM Tweets GROUP BY Topic, TumblingWindow(second, 5) TUMBLINGWINDOW ( timeunit , windowsize, [offsetsize] ) TUMBLINGWINDOW ( Duration( timeunit , windowsize ), [Offset(timeunit , offsetsize)] )
  • 16. Group By – Windowing - Hoppingwindow SELECT System.TimeStamp, Topic, COUNT(*) FROM Tweets BY EntryTime GROUP BY Topic, HoppingWindow(second, 10, 5) HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] ) HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
  • 17. Group By – Windowing - Hoppingwindow SELECT System.TimeStamp, Topic, COUNT(*) FROM Tweets BY EntryTime GROUP BY Topic, HoppingWindow(second, 10, 5) HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] ) HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
  • 20. Key Concept – Machine Learning Data Model Parameters Learning Prediction Decision Making Utility Function lukasz@tidk.pl
  • 21. Class Learning Problems • Classification: Assign a category to each item (Chinese | French | Indian | Italian | Japanese restaurant). • Regression: Predict a real value for each item (stock/currency value, temperature). • Ranking: Order items according to some criterion (web search results relevant to a user query). • Clustering: Partition items into homogeneous groups (clustering twitter posts by topic). • Dimensionality reduction: Transform an initial representation of items into a lower-dimensional representation while preserving some properties (preprocessing of digital images). lukasz@tidk.pl
  • 22. Steps to Build Machine Learning Solution lukasz@tidk.pl
  • 27. • 16-18 maj 2016 • Wrocław Centrum Konferencyjne • 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji • 600 uczestników + sponsorzy + prelegenci + organizatorzy • Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii, Słoweni • Premiera techniczna SQL Server 2016 sqlday.pl @sqlday lukasz@tidk.pl
  • 28. Masterclass: Cloud Storage 23-25.05.2016, Warszawa Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i Hadoop, Wirtualne maszyny Masterclass: Cloud Analytics 20-22.06.2016, Warszawa Data Catalog, Data Factory, Data LakePower, BI i dane relacyjne w chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych, Analiza z baz danych dokumentowych i grafowych, Uczenie maszynowe, Polybase w SQL Server 2016 Łukasz Grala Data Platform MVP, MCT, MCSE, MCSA, MCITP, MCSA, MCP, MTA Łukasz o szkoleniach: „Danych produkowanych jest więcej niż kiedykolwiek, pochodzą z sieci Internet, z portali społecznościowych, z urządzeń. Bardzo duży rozwój Internetu Rzeczy (IoT) ilość tych danych jeszcze bardziej zwiększa. Dlatego przygotowaliśmy dwa specjalne kursy Cloud Storage i Cloud Analytics, przedstawiające mechanizmy składowania, przetwarzania i analizy danych z wykorzystaniem chmury.” Big Data, BI, Analityka, SQL Standard -25% na hasło AzureDaywww.hexcode.pl