AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...Łukasz Grala
Sesja o wprowadzeniu do sztucznej inteligencji, cognitive services i uczeniu maszynowym. Na wyciągnięcie ręki serwisy, które dają możliwość analizy obrazu, dźwięku, tekstów. Analiza obrazu w czasie rzeczywitym, rozpoznawanie twarzy i ludzi, ruchu, emocji. Odczytywanie tekstów z video, oraz boty.
Jak 5 narzędzi złożyło się na sukces hurtowni
Maciek jest kierownikiem projektu hurtowni danych, Przemek liderem zespołu programistów. Razem zaprezentują jakie (darmowe) narzędzia developerskie usprawniły prace programistom oraz jakie pozytywne „efekty uboczne” przyniosły one zarówno w samym projekcie jak i w jego otoczeniu. Następnie przedstawią jak doprowadziło ich to – szybciej niż myśleli – do automatu, który na bieżąco buduje z najnowszych źródeł, wdraża i testuje hurtownię danych.
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampŁukasz Grala
W życiu mamy często do czynienia z hierarchią. Problem pojawia się jak mamy ją odpowiednio zapisać w bazie danych, żeby później z niej efektywnie korzystać. W ramach sesji będą przedstawione zagadnienia związane zarówno z reprezentacją hierarchii przy użyciu złączenia self-join, jak i przy użyciu nowego typu hirarchyid. W ramach sesji przedstawione będą metody korzystania z obu reprezentacji i porównanie ich wydajności.
Prezentacja z konferencji 2nd Sielesian CodeCamp która odbyła się 9 kwietnia 2011 roku.
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind
Współczesne rozwiązania w obszarze zaawansowanej analityki danych muszą być gotowe na nowego typu wyzwanie: analizę danych pochodzących z różnych źródeł w czasie bliskim rzeczywistemu. Jednym z celów może być reagowanie na zdarzenia w social media czy dostarczanie spersonalizowanych ofert klientom dokładnie wtedy, kiedy tego rzeczywiście potrzebują.
W trakcie prezentacji Barbara Leśniarek (Data Scientist w Elitmind) oraz Kamil Słomka (Senior Business Intelligence Consultant) pokazali przykład implementacji takiego rozwiązania w oparciu o usługi Microsoft Azure: Stream Analytics oraz Machine Learning.
AnalyticsConf2016 - Innowacyjność poprzez inteligentną analizę informacji - C...Łukasz Grala
Sesja o wprowadzeniu do sztucznej inteligencji, cognitive services i uczeniu maszynowym. Na wyciągnięcie ręki serwisy, które dają możliwość analizy obrazu, dźwięku, tekstów. Analiza obrazu w czasie rzeczywitym, rozpoznawanie twarzy i ludzi, ruchu, emocji. Odczytywanie tekstów z video, oraz boty.
Jak 5 narzędzi złożyło się na sukces hurtowni
Maciek jest kierownikiem projektu hurtowni danych, Przemek liderem zespołu programistów. Razem zaprezentują jakie (darmowe) narzędzia developerskie usprawniły prace programistom oraz jakie pozytywne „efekty uboczne” przyniosły one zarówno w samym projekcie jak i w jego otoczeniu. Następnie przedstawią jak doprowadziło ich to – szybciej niż myśleli – do automatu, który na bieżąco buduje z najnowszych źródeł, wdraża i testuje hurtownię danych.
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampŁukasz Grala
W życiu mamy często do czynienia z hierarchią. Problem pojawia się jak mamy ją odpowiednio zapisać w bazie danych, żeby później z niej efektywnie korzystać. W ramach sesji będą przedstawione zagadnienia związane zarówno z reprezentacją hierarchii przy użyciu złączenia self-join, jak i przy użyciu nowego typu hirarchyid. W ramach sesji przedstawione będą metody korzystania z obu reprezentacji i porównanie ich wydajności.
Prezentacja z konferencji 2nd Sielesian CodeCamp która odbyła się 9 kwietnia 2011 roku.
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind
Współczesne rozwiązania w obszarze zaawansowanej analityki danych muszą być gotowe na nowego typu wyzwanie: analizę danych pochodzących z różnych źródeł w czasie bliskim rzeczywistemu. Jednym z celów może być reagowanie na zdarzenia w social media czy dostarczanie spersonalizowanych ofert klientom dokładnie wtedy, kiedy tego rzeczywiście potrzebują.
W trakcie prezentacji Barbara Leśniarek (Data Scientist w Elitmind) oraz Kamil Słomka (Senior Business Intelligence Consultant) pokazali przykład implementacji takiego rozwiązania w oparciu o usługi Microsoft Azure: Stream Analytics oraz Machine Learning.
Wykorzystanie Google Data Studio w raportowaniu i wizualizacji danych - Mateu...Mateusz Muryjas
Google Data Studio to narzędzie z pakietu analitycznych rozwiązań Google, które pozwala na łatwą integrację różnych źródeł danych i przekształcenie ich w użyteczne i funkcjonalne dashboardy i raporty. Dzięki Data Studio podejmowanie decyzji biznesowych w oparciu o dane behawioralne, czy transakcyjne staje się łatwiejsze. W swojej prezentacji mogę pokazać i krótko omówić funkcjonalności Data Studio, pokazać jakie dane i jakie źródła możemy integrować oraz przedstawić case studies z przykładami raportów.
-- Przykładowe dashboardy --
http://bit.ly/DSS_eC_static - DSS - Raport e-commerce (static)
http://bit.ly/DSS_eC_dynamic - DSS - Raport e-commerce (dynamic)
http://bit.ly/DSS_household_budget - DSS - Raport wydatków Pana Kowalskiego
http://bit.ly/DSS_AdWords - DSS - Raport kampanii Google AdWords
http://bit.ly/DSS_GA_MySQL - DSS - Report GA & MySQL
Transact-SQL to podstawowy język programowania baz danych w środowisku MS SQL Server. Transact-SQL jest zmodyfikowaną i uzupełnioną o elementy typowe dla proceduralnych języków programowania (jak zmienne i instrukcje sterujące wykonaniem programu) wersją standardu SQL-92. Dzięki temu rozszerzeniu, jego możliwości są znacznie większe niż możliwości standardowego SQL-a.
SQL Server został wyposażony w intuicyjne, a zarazem potężne narzędzie administracyjne -- konsolę SQL Server Enterprise Menager. W rezultacie część administratorów SQL Servera nie zna albo nie korzysta z możliwości języka Transact-SQL. A okazuje się, że ta sama operacja może być przeprowadzona kilkukrotnie szybciej, jeżeli zamiast konsoli użyjemy Transact-SQLa.
Książka "Transact-SQL. Czarna Księga" to wyczerpujące i dogłębne kompendium omawiające nie tylko sam język Transact-SQL, ale również zasady projektowania baz danych, a także zarządzanie SQL Serverem za pomocą języka Transact-SQL.
Przedstawiono:
* Standardowe interfejsy języka SQL instalowane wraz z SQL Serverem
* Elementy języka Transact-SQL i składnię poszczególnych instrukcji języka wraz z praktycznymi przykładami ich wykorzystania
* Metody pobierania i modyfikowania danych
* Optymalizację zapytań
* Wyszukiwanie pełnotekstowe i usługa MS Search.
* Zasady projektowania relacyjnych baz danych
* Algorytmy przekształcania relacji poprzez kolejne postacie normalne
* Tworzenie, modyfikowanie i usuwanie wszystkich typów obiektów bazodanowych
* Bezpieczeństwo i kontrolowanie dostępu do danych
* Integrację SQL Servera z innymi serwerami firmy Microsoft
* Tworzenie i przywracanie kopii zapasowych
* Automatyzację czynności administracyjnych
* Monitorowanie pracy SQL Servera i optymalizację jego wydajności
* Łączenie serwerów bazodanowych
* Replikację danych pomiędzy wieloma SZBD
Instrukcje SQL są kluczowymi elementami typowych aplikacji bazodanowych, a więc efektywność ich wykonywania decyduje w głównym stopniu o wydajności samych aplikacji. Twórcy aplikacji bazodanowych i administratorzy baz danych często spędzają długie godziny w celu upewnienia się, że dostęp do danych istotnie odbywa się po najszybszych ścieżkach, czyli że plany wykonywania wyrażeń SQL są optymalne. Wiąże się z tym między innymi rozważanie wzajemnego związku między strukturą wyrażeń SQL a planami ich wykonywania.
Książka ta poświęcona jest jednemu z kluczowych aspektów tego związku, często niedocenianemu, aczkolwiek niezmiernie istotnemu -- wyborowi odpowiedniego planu wykorzystywanego przez określone zapytanie. Autor prezentuje matematyczną metodą optymalizacji wyrażeń SQL, opierającą się na dobrze zdefiniowanym algorytmie postępowania i prowadzącą do znajdowania optymalnych (lub niemal optymalnych) planów wykonania dla określonych wyrażeń; jest to naprawdę atrakcyjna alternatywa dla poszukiwań metodą prób i błędów, rzadko dającą optymalne rezultaty. Czytelnik znajdzie w niniejszej książce opis wielu szczegółowych zagadnień związanych z optymalizacją wyrażeń SQL i baz danych w ogólności, między innymi takich jak:
* Buforowanie danych i zarządzanie tabelami
* Indeksowanie, implementowanie indeksów i związane z tym koszty
* Filtrowanie zawartości tabel i jego związek z indeksowaniem
* Złączenia tabel i metody ich realizacji
* Analiza planów wykonywania zapytań i zarządzanie tymi planami w bazach danych Oracle, MS SQL Server i DB2
* Sporządzanie diagramów zapytań i wykorzystywanie ich do celów optymalizacji złożonych zapytań oraz do wyznaczania najlepszych planów wykonywania
* Specjalne metody optymalizacji szczególnych przypadków, w których standardowe postępowanie okazuje się niewystarczające: buforowanie wielokrotnie wydawanych zapytań, łączenie i upodobnianie zapytań itp.
Treści poszczególnych rozdziałów towarzyszą ćwiczenia kontrolne, a całość wieńczy prezentacja zastosowania opisywanych koncepcji w (kompletnie opisanym) procesie optymalizowania konkretnej aplikacji.
Przyśpiesz działanie aplikacji -- zoptymalizuj dostęp do danych
Wprowadzenie do analizy danych w chmurze. Między innymi o Azure Stream Analytics, Azure Data Lake Analytics, Azure Machine Learning, ale też i o rozwiazaniach OpenSource (Spark, Yupiter, Storm, Zepelin)
DBPLUS Performance Monitor dla Microsoft SQL ServerDBPLUS
Nowoczesny system do precyzyjnego monitorowania i analizowania wydajności bazy danych. Najważniejsze cechy: Umożliwia sprawne lokalizowanie przyczyn problemów wydajnościowych w bazach danych; Minimalnie obciąża silnik bazy danych podczas zbierania parametrów jej pracy; System nie ma dostępu i nie analizuje danych biznesowych;Regularne aktualizacje i wsparcie producenta zapewniają wsparcie dla najnowszych wersji baz danych; Intuicyjny interface użytkownika i łatwość nawigacji również dla osób bez wiedzy technicznej.
DBPLUS Performance Monitor dla Oracle® to nowoczesny system do precyzyjnego monitorowania i analizowania wydajności bazy danych. Najważniejsze cechy:Umożliwia sprawne lokalizowanie przyczyn problemów wydajnościowych w bazach danych; Minimalnie obciąża silnik bazy danych podczas zbierania parametrów jej pracy; System nie ma dostępu i nie analizuje danych biznesowych;Regularne aktualizacje i wsparcie producenta zapewniają wsparcie dla najnowszych wersji baz danych; Intuicyjny interface użytkownika i łatwość nawigacji również dla osób bez wiedzy technicznej.
DataMass Summit - Machine Learning for Big Data in SQL ServerŁukasz Grala
Sesja pokazująca zarówno Machine Learning Server (czyli algorytmy uczenia maszynowego w językach R i Python), ale także możliwość korzystania z danych JSON w SQL Server, czy też łączenia się do danych znajdujących się na HDFS, HADOOP, czy Spark poprzez Polybase w SQL Server, by te dane wykorzystywać do analizy, predykcji poprzez modele w językach R lub Python.
Sesja na temat analizy sentymentu, ale także i algorytmów uczenia maszynowego w bibliotekach do języka R Microsoft. Sesja była prezentowana na konferencji WhyR? w Warszawie
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightŁukasz Grala
Sesja or ozwiązaniu Big Data Analytics Microsoft. Jest to Hortonowrks (HADOOP, HBase, Storm, Spark), wraz z wydajnym R Server. Zaawansowana analityka przy użyciui RevoScaleR
eRum2016 -RevoScaleR - Performance and Scalability RŁukasz Grala
Conference eRum2016.
European R users meeting (eRum) is an international conference that aims at integrating users of the R language. eRum 2016 will be a good chance to exchange experiences, broaden knowledge on R and collaborate. One can participate in eRum 2016: (1) with a regular oral presentation, (2) with a lightning talk, (3) with a poster presentation, (4) or attending without presentation or poster. Due to space available at the conference venue, organizers set limit of participants at 250.
Session about RevoScale R.
AzureDay North 2016. Conference about cloud solutions.
What is Machine Learning? Why we need Machine Learning? Where and When we use this? What is Azure Machine Learning and language R. Session introduce to paradigm machine learning, data mining, classes of problems and fundamentals of algorithms.
By Data Scientist as a Service.
AzureDay - Introduction Big Data Analytics.Łukasz Grala
AzureDay North 2016. Conference about cloud solutions.
What is Analytics? What is Big Data? Why Big Data we have in the cloud. What offer Microsoft for Big Data Analytics. How to start with Big Data Analytics or Advanced Analytics? Session introduce fundamentals for Big Data and Advanced Analytics.
By Data Scientist as a Service
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...Łukasz Grala
Wzrost ilości danych w postaci strumieni danych spowodował potrzebę analizy danych w czasie rzecyzwistych będących strumieniami. W czasie sesji pokazano połączenie:
- event hub/Iot hub
- Azure Stream Analytics
- Azure Machine Learning
Wykorzystanie Google Data Studio w raportowaniu i wizualizacji danych - Mateu...Mateusz Muryjas
Google Data Studio to narzędzie z pakietu analitycznych rozwiązań Google, które pozwala na łatwą integrację różnych źródeł danych i przekształcenie ich w użyteczne i funkcjonalne dashboardy i raporty. Dzięki Data Studio podejmowanie decyzji biznesowych w oparciu o dane behawioralne, czy transakcyjne staje się łatwiejsze. W swojej prezentacji mogę pokazać i krótko omówić funkcjonalności Data Studio, pokazać jakie dane i jakie źródła możemy integrować oraz przedstawić case studies z przykładami raportów.
-- Przykładowe dashboardy --
http://bit.ly/DSS_eC_static - DSS - Raport e-commerce (static)
http://bit.ly/DSS_eC_dynamic - DSS - Raport e-commerce (dynamic)
http://bit.ly/DSS_household_budget - DSS - Raport wydatków Pana Kowalskiego
http://bit.ly/DSS_AdWords - DSS - Raport kampanii Google AdWords
http://bit.ly/DSS_GA_MySQL - DSS - Report GA & MySQL
Transact-SQL to podstawowy język programowania baz danych w środowisku MS SQL Server. Transact-SQL jest zmodyfikowaną i uzupełnioną o elementy typowe dla proceduralnych języków programowania (jak zmienne i instrukcje sterujące wykonaniem programu) wersją standardu SQL-92. Dzięki temu rozszerzeniu, jego możliwości są znacznie większe niż możliwości standardowego SQL-a.
SQL Server został wyposażony w intuicyjne, a zarazem potężne narzędzie administracyjne -- konsolę SQL Server Enterprise Menager. W rezultacie część administratorów SQL Servera nie zna albo nie korzysta z możliwości języka Transact-SQL. A okazuje się, że ta sama operacja może być przeprowadzona kilkukrotnie szybciej, jeżeli zamiast konsoli użyjemy Transact-SQLa.
Książka "Transact-SQL. Czarna Księga" to wyczerpujące i dogłębne kompendium omawiające nie tylko sam język Transact-SQL, ale również zasady projektowania baz danych, a także zarządzanie SQL Serverem za pomocą języka Transact-SQL.
Przedstawiono:
* Standardowe interfejsy języka SQL instalowane wraz z SQL Serverem
* Elementy języka Transact-SQL i składnię poszczególnych instrukcji języka wraz z praktycznymi przykładami ich wykorzystania
* Metody pobierania i modyfikowania danych
* Optymalizację zapytań
* Wyszukiwanie pełnotekstowe i usługa MS Search.
* Zasady projektowania relacyjnych baz danych
* Algorytmy przekształcania relacji poprzez kolejne postacie normalne
* Tworzenie, modyfikowanie i usuwanie wszystkich typów obiektów bazodanowych
* Bezpieczeństwo i kontrolowanie dostępu do danych
* Integrację SQL Servera z innymi serwerami firmy Microsoft
* Tworzenie i przywracanie kopii zapasowych
* Automatyzację czynności administracyjnych
* Monitorowanie pracy SQL Servera i optymalizację jego wydajności
* Łączenie serwerów bazodanowych
* Replikację danych pomiędzy wieloma SZBD
Instrukcje SQL są kluczowymi elementami typowych aplikacji bazodanowych, a więc efektywność ich wykonywania decyduje w głównym stopniu o wydajności samych aplikacji. Twórcy aplikacji bazodanowych i administratorzy baz danych często spędzają długie godziny w celu upewnienia się, że dostęp do danych istotnie odbywa się po najszybszych ścieżkach, czyli że plany wykonywania wyrażeń SQL są optymalne. Wiąże się z tym między innymi rozważanie wzajemnego związku między strukturą wyrażeń SQL a planami ich wykonywania.
Książka ta poświęcona jest jednemu z kluczowych aspektów tego związku, często niedocenianemu, aczkolwiek niezmiernie istotnemu -- wyborowi odpowiedniego planu wykorzystywanego przez określone zapytanie. Autor prezentuje matematyczną metodą optymalizacji wyrażeń SQL, opierającą się na dobrze zdefiniowanym algorytmie postępowania i prowadzącą do znajdowania optymalnych (lub niemal optymalnych) planów wykonania dla określonych wyrażeń; jest to naprawdę atrakcyjna alternatywa dla poszukiwań metodą prób i błędów, rzadko dającą optymalne rezultaty. Czytelnik znajdzie w niniejszej książce opis wielu szczegółowych zagadnień związanych z optymalizacją wyrażeń SQL i baz danych w ogólności, między innymi takich jak:
* Buforowanie danych i zarządzanie tabelami
* Indeksowanie, implementowanie indeksów i związane z tym koszty
* Filtrowanie zawartości tabel i jego związek z indeksowaniem
* Złączenia tabel i metody ich realizacji
* Analiza planów wykonywania zapytań i zarządzanie tymi planami w bazach danych Oracle, MS SQL Server i DB2
* Sporządzanie diagramów zapytań i wykorzystywanie ich do celów optymalizacji złożonych zapytań oraz do wyznaczania najlepszych planów wykonywania
* Specjalne metody optymalizacji szczególnych przypadków, w których standardowe postępowanie okazuje się niewystarczające: buforowanie wielokrotnie wydawanych zapytań, łączenie i upodobnianie zapytań itp.
Treści poszczególnych rozdziałów towarzyszą ćwiczenia kontrolne, a całość wieńczy prezentacja zastosowania opisywanych koncepcji w (kompletnie opisanym) procesie optymalizowania konkretnej aplikacji.
Przyśpiesz działanie aplikacji -- zoptymalizuj dostęp do danych
Wprowadzenie do analizy danych w chmurze. Między innymi o Azure Stream Analytics, Azure Data Lake Analytics, Azure Machine Learning, ale też i o rozwiazaniach OpenSource (Spark, Yupiter, Storm, Zepelin)
DBPLUS Performance Monitor dla Microsoft SQL ServerDBPLUS
Nowoczesny system do precyzyjnego monitorowania i analizowania wydajności bazy danych. Najważniejsze cechy: Umożliwia sprawne lokalizowanie przyczyn problemów wydajnościowych w bazach danych; Minimalnie obciąża silnik bazy danych podczas zbierania parametrów jej pracy; System nie ma dostępu i nie analizuje danych biznesowych;Regularne aktualizacje i wsparcie producenta zapewniają wsparcie dla najnowszych wersji baz danych; Intuicyjny interface użytkownika i łatwość nawigacji również dla osób bez wiedzy technicznej.
DBPLUS Performance Monitor dla Oracle® to nowoczesny system do precyzyjnego monitorowania i analizowania wydajności bazy danych. Najważniejsze cechy:Umożliwia sprawne lokalizowanie przyczyn problemów wydajnościowych w bazach danych; Minimalnie obciąża silnik bazy danych podczas zbierania parametrów jej pracy; System nie ma dostępu i nie analizuje danych biznesowych;Regularne aktualizacje i wsparcie producenta zapewniają wsparcie dla najnowszych wersji baz danych; Intuicyjny interface użytkownika i łatwość nawigacji również dla osób bez wiedzy technicznej.
DataMass Summit - Machine Learning for Big Data in SQL ServerŁukasz Grala
Sesja pokazująca zarówno Machine Learning Server (czyli algorytmy uczenia maszynowego w językach R i Python), ale także możliwość korzystania z danych JSON w SQL Server, czy też łączenia się do danych znajdujących się na HDFS, HADOOP, czy Spark poprzez Polybase w SQL Server, by te dane wykorzystywać do analizy, predykcji poprzez modele w językach R lub Python.
Sesja na temat analizy sentymentu, ale także i algorytmów uczenia maszynowego w bibliotekach do języka R Microsoft. Sesja była prezentowana na konferencji WhyR? w Warszawie
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightŁukasz Grala
Sesja or ozwiązaniu Big Data Analytics Microsoft. Jest to Hortonowrks (HADOOP, HBase, Storm, Spark), wraz z wydajnym R Server. Zaawansowana analityka przy użyciui RevoScaleR
eRum2016 -RevoScaleR - Performance and Scalability RŁukasz Grala
Conference eRum2016.
European R users meeting (eRum) is an international conference that aims at integrating users of the R language. eRum 2016 will be a good chance to exchange experiences, broaden knowledge on R and collaborate. One can participate in eRum 2016: (1) with a regular oral presentation, (2) with a lightning talk, (3) with a poster presentation, (4) or attending without presentation or poster. Due to space available at the conference venue, organizers set limit of participants at 250.
Session about RevoScale R.
AzureDay North 2016. Conference about cloud solutions.
What is Machine Learning? Why we need Machine Learning? Where and When we use this? What is Azure Machine Learning and language R. Session introduce to paradigm machine learning, data mining, classes of problems and fundamentals of algorithms.
By Data Scientist as a Service.
AzureDay - Introduction Big Data Analytics.Łukasz Grala
AzureDay North 2016. Conference about cloud solutions.
What is Analytics? What is Big Data? Why Big Data we have in the cloud. What offer Microsoft for Big Data Analytics. How to start with Big Data Analytics or Advanced Analytics? Session introduce fundamentals for Big Data and Advanced Analytics.
By Data Scientist as a Service
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...Łukasz Grala
Wzrost ilości danych w postaci strumieni danych spowodował potrzebę analizy danych w czasie rzecyzwistych będących strumieniami. W czasie sesji pokazano połączenie:
- event hub/Iot hub
- Azure Stream Analytics
- Azure Machine Learning
20160405 Cloud Community Poznań - Cloud Analytics on AzureŁukasz Grala
Cloud Analytics on Platform Azure. Overview about analytics. Talking about Azure Data Lake Storage & Analytics, Azure Stream Analytics, HDInsight, Hortonowrks, PowerBI...
Pierwsza edycja konferencji AzureDay Poland 2016. W ramach tej konferencji sesja o analizie danych strumieniowych przy użyciu Azure Stream Analytics, rozszerzone o możliwości algorytmów uczenia maszynowego przetwarzane w Azure Machine Learning
Wprowadzenie do składowania danych w chmurze. Od relacyjnych Azure SQL Database, Azure SQL Data Warehouse, NoSQL - Azure DocumentDB, HDInsight (Hadoop, Spark, Hbase), Azure Search i Azure Data Factory
Session about types of analytics. Descriptive, diagnostic, predictive and prescriptive analytics.
Conference DATA ANALYSIS DEVELOPMENT 2016 by RZECZPOSPOLITA.
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
1. Modelowanie i zasilanie wymiarów w hurtowniach danych ___________________________________________________________________________________________________________________________________________________________________________ ŁUKASZ GRALA Lider PLSSUG, MCT, MVP SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz
2. Łukasz grala Niezależny konsultant, architekt, projektant (bazy i hurtownie danych, data mining, analiza danych, audyty baz danych – SQL Server, BI), SharePoint Trener technologii Microsoft, wykładowca na wyższych uczelniach. Lider Polish SQL Server User Group (PLSSUG) Poznań Prelegent na wielu konferencjach informatycznych Posiada liczne certyfikaty Prowadzi blogi: http://powerpivot.info.pl http://sqlresearch.com Kontakt: lukasz@grala.biz
3. Co to jest hurtownia danych? Co to jest wymiar? Wymiary i hierarchie Zasilanie wymiarów Slowly Changing Dimension 6 postać normalna Mechanizmy w Microsoft SQL Server Podsumowanie Agenda SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz
4. Co to jest hurtownia danych? Łukasz Grala – lukasz@grala.biz Hurtownia danych (ang. Data Warehouse) – rodzaj bazy danych, która jest zorganizowana i zoptymalizowana pod kątem pewnego wycinka rzeczywistości Najważniejsze cechy hurtowni danych: Wyższy poziom abstrakcji Dane do odczytu Zintegrowane dane z wielu źródeł Olbrzymia ilość danych Dane historyczne
5. Co to jest hurtownia danych? Łukasz Grala – lukasz@grala.biz Hurtownie danych OLAP OLTP Struktury operacyjne Kostki/ struktury użytkownika Struktury hurtowni danych Dane operacyjne Dane ujednolicone Wybrane dane
6. Co to jest hurtownia danych? 5,005,000 Łukasz Grala – lukasz@grala.biz
7. Co to jest wymiar? Wymiar jest to logiczne grupowanie danych przechowywanych w tabelach faktów hurtowni danych Łukasz Grala – lukasz@grala.biz
8. Co to jest wymiar? Tabele faktów Łukasz Grala – lukasz@grala.biz
9. Co to jest wymiar? Tabele wymiaru Łukasz Grala – lukasz@grala.biz
10. Co to jest wymiar? Hierarchia i agregacja Łukasz Grala – lukasz@grala.biz
11. Co to jest wymiar? Schemat gwiazdy (ang. Star schema) centralna tabela faktów powiązana z tabelami wybiarów Łukasz Grala – lukasz@grala.biz
12. Co to jest wymiar? Łukasz Grala – lukasz@grala.biz
13. Co to jest wymiar? Schemat płatka śniegu (ang. Snowflake schema) Znormalizowana postać schematu gwiazdy Łukasz Grala – lukasz@grala.biz Schemat konstelacji faktów (ang. Fact Constellation schema) Tabele wymiarów współdzielone z wieloma tabelami faktów (wykorzystywany model płatka lub gwiazy)
14. Zasilanie danych Mechanizm ETL (ang Extracttion-Transformation-Load) Ekstrakacja danych Czyszczenie danych Transformacja danych Ładowanie danych Replikacja danych Analiza danych (wykrywanie nieprawidłowości) Kontrola jakości danych Łukasz Grala – lukasz@grala.biz
15. Data Marts Staging Area Client Access Manual Cleansing 9: Delivering BI enables a process of continuous business improvement 1: Clients need access to data 2: Clients may access data sources directly 3: Data sources can be mirrored/replicated to reduce contention 4: The data warehouse manages data for analyzing and reporting 5: Data warehouse is periodically populated from data sources 6: Staging areas may simplify the data warehouse population 7: Manual cleansing may be required to cleanse dirty data 8: Clients use various tools to query the data warehouse Data Warehouse Data Sources Client Access Łukasz Grala – lukasz@grala.biz
16. Slowly Changing Dimension Łukasz Grala – lukasz@grala.biz Śledzenie i zapisywanie zachodzących zmian danych w wymiarach hurtowni danych
17. Wszystkie typy SCD? Łukasz Grala – lukasz@grala.biz Typ 0 – Brak podjęcia działań Typ 1 – Nadpisanie zmian Typ 2 – Wstawienie nowego i unieważnienie istniejacego Typ 3 – Zmiana w dodatkowej kolumnie Typ 4 – Dodatkowa tabela (historyczna) Typ 6/Hybrid – Połączenie typu 1 z 2 i 3.
18. Slowly Changing Dimensions Type 1 Istniejące rekordy są nadpisywane Historia zmian nie jest przechowywana LastName update to Valdez-Smythe Łukasz Grala – lukasz@grala.biz
19. Slowly Changing Dimensions Type 2 Istniejący rekord traci wazność i jest wstawiany nowy Historia zmian jest przechowywana Wiele metod implementacji SalesTerritoryKey update to 10 Łukasz Grala – lukasz@grala.biz
20. Slowly Changing Dimensions Istniejący rekord jest nadpisywany Ograniczona historia jest przechowywana Trudna implementacja Type 3 SalesTerritoryKey update to 10 Łukasz Grala – lukasz@grala.biz
27. Kreator SCD w SSIS Step 1 Select the target dimension table Configure the relationship between the source data and the dimension table
28. Kreator SCD w SSIS Step 2 Select the participating columns and their change type: Fixed (Type 0) Changing (Type 1) Historical (Type 2)
29. Kreator SCD w SSIS Step 3 Configure the behavior if Fixed attributes change Configure whether Changing attributes should update the current record or all matching records
30. Kreator SCD w SSIS Step 4 Configure how Historical attributes identify current and expired records: Single Boolean column, or Start and End date columns Łukasz Grala – lukasz@grala.biz
31. Kreator SCD w SSIS Step 5 If inferred members are stored in the dimension table, define how they are identified: When all columns with a change type are null, or By a single Boolean column Łukasz Grala – lukasz@grala.biz
32. Kreator SCD w SSIS Wizard Output Based on your configuration, the wizard completes the downstream data flow Łukasz Grala – lukasz@grala.biz
33. 6 postać normalna (6NF) Baza danych znajduje się w postaci 6NF wtedy i tylko wtedy gdy nie zawiera żadnych nietrywialnych zależności złączeń Cechy 6NF Reprezentacja danych tymczasowych Zależność czasowa Brak wsparcia w Microsoft SQL Server 2008R2 (i wcześniejszych) Przykład implementacj: Dejan Sarka (MVP) – Inside Micorosft SQL Server 2008 – TSQL Programming Łukasz Grala – lukasz@grala.biz
34. Mechanizmy SQL Server SQL Server Integration Services 2008/2008R – SCD (komponent i kreator) SQL Server Analysis Services 2008/2008R2 (wymiary) TSQL Merge SQL Server Change Tracking SQL Server Change Data Capture Łukasz Grala – lukasz@grala.biz
36. Dziękuję! Strefa ATE 10.15-10.35 12.10-13.00 SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz Lubię to!
37. NASTĘPNA SESJA - 10:35 Collation MAREK ADAMCZUK SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz
Use this animated slide to demystify how results are retrieved from cubes. Point out that in reality cubes are more than just three dimensions; this example is greatly simplified.
The dimensional model is called a star schema because (with some imagination) it looks like a star. The terms dimensional model and star schema can be used interchangeably.This slide effectively illustrates how the model looks like a star. Emphasize that the star schema is a relational database schema organized around a central table known as a fact table. The points on the star are the dimension tables. Briefly provide examples of both types of tables and point out the dimension keys and measures in the fact table. But reserve a more complete discussion of them for the following slides.
Spend time building up this slide. Note that the main points on this slide will be covered in the slides that follow.Build 1: Introduces source systems and client access. Mention a common requirement for information workers to analyze and report on this data.Build 2: Should the information workers connect directly to these systems? Remind students of the points on the slide about common information problems: Performance impact, availability, cleanliness, historical context preservation, and end user skills and tools.Build 3: Focuses on source system mirroring. Mention that database mirroring (an availability feature introduced with SQL Server 2008) could make a read-only copy of the database available to reduce the impact on the source database.Build 4: Introduces the data warehouse, which consists of data marts, a multidimensional database, data mining models and data feeds. The data warehouse system can overcome many of the issues raised in Build 2, but it implies that the data must be copied from the source systems…Build 5: Highlights the ETL process. Mention that the data from the source systems needs to be periodically extracted and loaded into the data marts. These data marts commonly have a particular schema design optimized for querying, so the data will need to be transformed. Introduce the term ETL—extract, transform, and load.Build 6: Introduces the staging systems. Performing the ETL in one process may be difficult to achieve because of the complexity of transformations or the need to cleanse the data. Mention that staging systems are optional and that the technologies introduced in this course (e.g., SSIS) may challenge this traditional need. Note that staging is still an important design consideration because it provides convenient restartability of the ETL process without the need to disturb the source systems.Build 7: Manual cleansing may be required to fix problematic data. This is expensive in terms of human resources and time. Mention that the technologies introduced in this course (e.g., SSIS) may be able to address this problem.Build 8: Client access can take many forms—for example, via browsing tools, reports, spreadsheets, dashboards, and so on.. Stress that, ideally, clients extract their data from the “one version of the truth.” Discuss the different types of users: power users, analysts and their different needs.Build 9: Emphasize that this is a continuous process of monitoring, analyzing and planning.
Slowly changing dimension Type 1 restates history. An in-place change records that the member has always been that way. Note that no surrogate keys are required to manage this type (but are still recommended for other reasons discussed earlier).
Slowly changing dimension Type 2 tracks history with versioning. It is more complex to manage but provides accurate historical reporting.
Slowly changing dimension Type 3 provides limited history. It is difficult to manage when there are many changes and is also difficult to query from. For these reasons, this type is rarely implemented.
Step 1: The dimension table needs to be selected and the business key(s) configured. This allows the transformation to correlate the data.
Step 2: Select the columns that must have their changes managed. Be sure to clarify the terms that the wizard uses for the different types.
Step 3: Configure what the transformation does if Fixed attributes change (the check box is disabled in this slide because no columns were configured as Fixed attributes). A Fixed Attribute Output is available to isolate the records. If Changing attributes change, you can configure the update to affect all records (relevant where Type 2 changes are managed on the table) or just the current record. Essentially, the update statement that changes the record will have its WHERE clause set to either the business key or surrogate key, respectively.
Step 4: If Historical changes have been configured, define how the current row can be isolated: as a Boolean column or as Start/End dates. The latter is considered the best practice because it provides richer information that may be useful in later analysis and for updating historical fact records.
Step 5: If inferred members are stored in the table, configure how they will be identified. This is important because late-arriving dimension details should not be interpreted to be a Type 2 change! Once the late-arriving details are updated, then during subsequent loads, updates can be managed according to the change configurations.
Upon completing, the wizard completes the downstream data flow that may be modified if required. Note that it is possible to rerun the wizard, and it will remember your configuration, but it will overwrite the downstream data flow. Take care to document any customizations beyond the wizard configuration if you decide to rerun the wizard.