Praktyczne wprowadzenie do nowoczesnych narzędzi analitycznych na przykładzie usług wchodzących w skład Microsoft Cortana Analytics Suite. Na konkretnych przykładach postaram się pokazać uczestnikom, jak przygotować się do przetwarzania dużej ilości danych. Jakie (darmowe i komercyjne) technologie znaleźć można na rynku? Jakie role i kompetencje przydadzą się wewnątrz organizacji? Jak dobrać właściwe narzędzia? Na czym warto skupić się samemu, a kiedy szukać pomocy na zewnątrz? Omówione zostaną również pierwsze komercyjne wdrożenia Cortany.
20160405 Cloud Community Poznań - Cloud Analytics on AzureŁukasz Grala
Cloud Analytics on Platform Azure. Overview about analytics. Talking about Azure Data Lake Storage & Analytics, Azure Stream Analytics, HDInsight, Hortonowrks, PowerBI...
SQL Server 2008 Tips & tricks administracjiSQLExpert.pl
Sesja odbyła się 7 kwietnia 2009r na Wyższej Szkole Komunikacji i Zarządzania w Poznaniu z okazji IT Academic Day.
W ramach tej sesji przedstawiono różne nowości wersji SQL Server 2008 usprawniające pracę administratorom.
Między innymi mowa jest o Policy Based Management, Extended Events, SQL Audit czy też kompresji w SQL Server 2008.
Wprowadzenie do analizy danych w chmurze. Między innymi o Azure Stream Analytics, Azure Data Lake Analytics, Azure Machine Learning, ale też i o rozwiazaniach OpenSource (Spark, Yupiter, Storm, Zepelin)
20160405 Cloud Community Poznań - Cloud Analytics on AzureŁukasz Grala
Cloud Analytics on Platform Azure. Overview about analytics. Talking about Azure Data Lake Storage & Analytics, Azure Stream Analytics, HDInsight, Hortonowrks, PowerBI...
SQL Server 2008 Tips & tricks administracjiSQLExpert.pl
Sesja odbyła się 7 kwietnia 2009r na Wyższej Szkole Komunikacji i Zarządzania w Poznaniu z okazji IT Academic Day.
W ramach tej sesji przedstawiono różne nowości wersji SQL Server 2008 usprawniające pracę administratorom.
Między innymi mowa jest o Policy Based Management, Extended Events, SQL Audit czy też kompresji w SQL Server 2008.
Wprowadzenie do analizy danych w chmurze. Między innymi o Azure Stream Analytics, Azure Data Lake Analytics, Azure Machine Learning, ale też i o rozwiazaniach OpenSource (Spark, Yupiter, Storm, Zepelin)
Shannon Holgate: Bending non-splittable data to harness distributed performanceAnalyticsConf
Performant XML processing in a distributed environment is a major challenge. We will dive into a financially viable pipeline to extract, load and transform XML on a platform of performance and flexibility. Hadoop, Spark and Impala will feature in this session about bringing commodity applications to a market of proprietary solutions.
What can we achieve by processing non-splittable data in a distributed fashion? I will talk about the motivation behind our research and show how we evolved a solution to cope with an ever changing environment. Stepping into the solution, I will show how you can strip away the restrictions of XML and load it onto Hadoop ready for analysis at scale in both an adhoc and modelling fashion.
Evaluating and evolving this solution is paramount. Load and throughput testing methods are highlighted along with guidance on tuning both the pipeline and the Hadoop platform to ensure your solution is optimised for a dynamic environment.
Tor Hovland: Taking a swim in the big data lakeAnalyticsConf
Are you curious about the possibilities enabled by Microsoft Azure and Cortana Analytics? Come and see how to handle data input from a large number of “Internet of Things” devices, how to work with all the data, how to scale big computations, how to make predictions, and how to build applications on top of it. There will be demos!
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2AnalyticsConf
Service Fabric zmienia sposób myślenia o architekturze rozwiązań. Skalowanie warstwy UI jest proste. Ale - w przypadku logiki biznesowej, dotychczas można było albo budować szybko działające aplikacje typu "monolit" albo - skalowalne, n-warstwowe aplikacje oparte o kolejki (i podobne mechanizmy). Tu - dzięki zupełnie innemu podejściu do problemu - można te światy połączyć. Sesja dosyć techniczna!
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktykaAnalyticsConf
Podczas sesji na rzeczywistych przykładach prześledzimy częste błędy popełniane podczas wdrożenia systemu BI. Rozważymy typowe sytuacje kryzysowe oraz sposoby radzenia z nimi. Przedyskutujemy też możliwości zastosowania formalnych procesów we wdrażaniu BI. Na koniec postaramy się określić zbiór najlepszych praktyk, mających zastosowanie w większości projektów.
Rafał Korszuń: Security in Design of Cloud ApplicationsAnalyticsConf
W jaki sposób projektowanie aplikacji wpływa na bezpieczeństwo? Zasady projektowania aplikacji krytycznych ze względu na charakter przetrzymywanych danych. Omówienie ciekawszych przypadków wdrożenia lub nie securyty designu.
Grzegorz Rycaj: Zdebuguj swoja prezentacjeAnalyticsConf
Każdy z nas staje czasem przed zadaniem pokazania światu swojego rozwiązania. No właśnie – jak zachęcić słuchacza do zainteresowania się naszym dziełem? Co sprawi, że zostaniemy obdarzeni zaufaniem oraz jakich najpopularniejszych błędów się wystrzegać? Na te i inne pytania odpowiem podczas mojej sesji!
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...AnalyticsConf
The session will cover following points from the experience of BETEGY founders:
- practical application of the Big Data in sports and betting;
- financing of the company (venture money vs. private money vs. strategic investors);
- product plans vs. market expansion;
- marketing techniques to promote Big Data company & product;
- challenges related to the product & industry;
- global vs. local company;
- other related topics.
Piotr Janczyk: Modele zachowań klientówAnalyticsConf
Czyli jak analizować dane w sprzedaży i marketingu?
Dynamiczna segmentacja Klientów
Podejście klasyczne, a może innowacyjne?
Segmentacja - odkrywanie nowych modeli w oparciu o dane.
Geolokalizacja
Analizy makro i mikroekonomiczne.
Czy adres o czymś świadczy?
Związany z technologiami Microsoft od początku kariery zawodowej, najpierw jako programista .NET, później architekt hurtowni danych. Zarządzał zespołami wdrażającymi rozwiązania oparte o MS BI m.in. w Grupie Energa, LOTOS, czy EuroStyl. Nastawiony na tworzenie rozwiązań praktycznych, zautomatyzowanych, prostych. MCSE: Business Intelligence
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...Michal Furmankiewicz
Azure oferuje wiele platform na których możesz uruchomić swoją aplikację. Każda ma swoje zalety i wady. Zrobiłem przegląd tych platform dla Ciebie. W prezentacji wyrażam swoją prywatną opinię.
[PL] Chmura hybrydowa - w poszukiwaniu zewnętrznych zasobów ITPiotr Pietrzak
Prezentacja dotycząca budowy chmur hybrydowych z wykorzystaniem rozwiązań IBM. Nie obejmuje budowy aplikacji PaaS na IBM BlueMix i wielu innych dostępnych możliwości.
[#1] z kilku perspektyw - IBM Integrated Analytics SystemArtur Wronski
Presentation #1 from IBM conference "Analityka Nowej Generacji", 8th of March 2018, Warsaw
Title: Introduction to IBM Integrated Analytics System
Presenter: Artur Wronski
[language: polish]
Shannon Holgate: Bending non-splittable data to harness distributed performanceAnalyticsConf
Performant XML processing in a distributed environment is a major challenge. We will dive into a financially viable pipeline to extract, load and transform XML on a platform of performance and flexibility. Hadoop, Spark and Impala will feature in this session about bringing commodity applications to a market of proprietary solutions.
What can we achieve by processing non-splittable data in a distributed fashion? I will talk about the motivation behind our research and show how we evolved a solution to cope with an ever changing environment. Stepping into the solution, I will show how you can strip away the restrictions of XML and load it onto Hadoop ready for analysis at scale in both an adhoc and modelling fashion.
Evaluating and evolving this solution is paramount. Load and throughput testing methods are highlighted along with guidance on tuning both the pipeline and the Hadoop platform to ensure your solution is optimised for a dynamic environment.
Tor Hovland: Taking a swim in the big data lakeAnalyticsConf
Are you curious about the possibilities enabled by Microsoft Azure and Cortana Analytics? Come and see how to handle data input from a large number of “Internet of Things” devices, how to work with all the data, how to scale big computations, how to make predictions, and how to build applications on top of it. There will be demos!
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2AnalyticsConf
Service Fabric zmienia sposób myślenia o architekturze rozwiązań. Skalowanie warstwy UI jest proste. Ale - w przypadku logiki biznesowej, dotychczas można było albo budować szybko działające aplikacje typu "monolit" albo - skalowalne, n-warstwowe aplikacje oparte o kolejki (i podobne mechanizmy). Tu - dzięki zupełnie innemu podejściu do problemu - można te światy połączyć. Sesja dosyć techniczna!
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktykaAnalyticsConf
Podczas sesji na rzeczywistych przykładach prześledzimy częste błędy popełniane podczas wdrożenia systemu BI. Rozważymy typowe sytuacje kryzysowe oraz sposoby radzenia z nimi. Przedyskutujemy też możliwości zastosowania formalnych procesów we wdrażaniu BI. Na koniec postaramy się określić zbiór najlepszych praktyk, mających zastosowanie w większości projektów.
Rafał Korszuń: Security in Design of Cloud ApplicationsAnalyticsConf
W jaki sposób projektowanie aplikacji wpływa na bezpieczeństwo? Zasady projektowania aplikacji krytycznych ze względu na charakter przetrzymywanych danych. Omówienie ciekawszych przypadków wdrożenia lub nie securyty designu.
Grzegorz Rycaj: Zdebuguj swoja prezentacjeAnalyticsConf
Każdy z nas staje czasem przed zadaniem pokazania światu swojego rozwiązania. No właśnie – jak zachęcić słuchacza do zainteresowania się naszym dziełem? Co sprawi, że zostaniemy obdarzeni zaufaniem oraz jakich najpopularniejszych błędów się wystrzegać? Na te i inne pytania odpowiem podczas mojej sesji!
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...AnalyticsConf
The session will cover following points from the experience of BETEGY founders:
- practical application of the Big Data in sports and betting;
- financing of the company (venture money vs. private money vs. strategic investors);
- product plans vs. market expansion;
- marketing techniques to promote Big Data company & product;
- challenges related to the product & industry;
- global vs. local company;
- other related topics.
Piotr Janczyk: Modele zachowań klientówAnalyticsConf
Czyli jak analizować dane w sprzedaży i marketingu?
Dynamiczna segmentacja Klientów
Podejście klasyczne, a może innowacyjne?
Segmentacja - odkrywanie nowych modeli w oparciu o dane.
Geolokalizacja
Analizy makro i mikroekonomiczne.
Czy adres o czymś świadczy?
Związany z technologiami Microsoft od początku kariery zawodowej, najpierw jako programista .NET, później architekt hurtowni danych. Zarządzał zespołami wdrażającymi rozwiązania oparte o MS BI m.in. w Grupie Energa, LOTOS, czy EuroStyl. Nastawiony na tworzenie rozwiązań praktycznych, zautomatyzowanych, prostych. MCSE: Business Intelligence
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...Michal Furmankiewicz
Azure oferuje wiele platform na których możesz uruchomić swoją aplikację. Każda ma swoje zalety i wady. Zrobiłem przegląd tych platform dla Ciebie. W prezentacji wyrażam swoją prywatną opinię.
[PL] Chmura hybrydowa - w poszukiwaniu zewnętrznych zasobów ITPiotr Pietrzak
Prezentacja dotycząca budowy chmur hybrydowych z wykorzystaniem rozwiązań IBM. Nie obejmuje budowy aplikacji PaaS na IBM BlueMix i wielu innych dostępnych możliwości.
[#1] z kilku perspektyw - IBM Integrated Analytics SystemArtur Wronski
Presentation #1 from IBM conference "Analityka Nowej Generacji", 8th of March 2018, Warsaw
Title: Introduction to IBM Integrated Analytics System
Presenter: Artur Wronski
[language: polish]
Jak zbudować aplikacje z wykorzystaniem funkcjonalności windows server 2016...Lukasz Kaluzny
Zagadnienia:
Nowe funkcjonalności Microsoft Windows Server 2016 w kontekście budowy aplikacji typu cloud-native:
Zastosowanie Nano Servera, czyli odchudzonej wersji Windows Server 2016, oszczędniej korzystającej z zasobów IT.
Uruchamianie na Nano Serwerach WS2016 aplikacji napisanych w .NET, Javie, Pythonie (Django) czy JavaScript (Node.js).
Migracja - bez konieczności zmiany kodu - istniejących aplikacji do architektury opartej o kontenery. Kontenery to rozwiązania oparte na szybkiej wirtualizacji na poziomie procesów. Nie tworzą dodatkowych instancji jądra systemu operacyjnego. Na tym samym hoście można uruchomić większą ilość kontenerów niż maszyn wirtualnych. Uruchamianie i zamykanie kontenera jest też znacznie szybsze, niż uruchamianie i zamykanie maszyny wirtualnej.
Wspólna praca developerów i administratorów nad produktem, czyli DevOps z wykorzystaniem Windows Server 2016 i Visual Studio Team Services w chmurze Azure. Automatyczne budowanie obrazów kontenerów dla każdego nowego kodu i wdrażania ich w różne środowiska
Łatwiejsze zarządzanie obciążeniami aplikacji pomiędzy zasobami we własnej infrastrukturze i w chmurze Azure dzięki WS2016 oraz Azure Service Fabric.
Funkcjonalności Windows Server 2016 powstałe z myślą o wygodzie administratorów:
Nowa wersja PowerShell 5.0 - przynosząca lepsze funkcjonowanie powłoki linii poleceń oraz udoskonalony język skryptowy,
Azure Remote Server Management Tools – zdalne zarządzanie Nano i Windows Server 2016 z Azure,
PowerShell Direct,
Nested Virtualization jako wsparcie ułatwienia nauki i testów.
Prezentacja dotyczy architektury aplikacji internetowych od strony back-endu oraz front-endu działającego w środowisku wykonania przeglądarek internetowych.
[#2] architektura - IBM Integrated Analytics SystemArtur Wronski
Presentation #2 from IBM conference "Analityka Nowej Generacji", 8th of March 2018, Warsaw
Title: IBM Integrated Analytics System architecture
Presenter: Marcin Marczewski
[language: polish]
10. • W szczycie
• 1600 rdzeni
• 5.6 TB RAM
• Ponad 2000 zdjęć/sekundę
Efekt pracy jednego programisty (3 tygodnie pracy) * Dane z września 2015
11.
12.
13.
14.
15. CHALLENGE
Dartmouth-Hitchcock Medical Center is a leading
regional medical center in New England with 1.2
million patients and more than 1,000 physicians in
virtually all areas of medicine. It wanted to replace
static treatment plans based on outdated, generic
data with highly personalized treatment plans or
“pathways” that would evolve based on the patient’s
own data and near-real-time information such as
vital signs, moods, and exercise habits from similar
people in the same region.
o Empowered, healthier patients with
personalized, evidence-based treatment plans
and collaborative care
o Millions of dollars saved in readmission costs,
unnecessary ER and doctor visits, and missed
work
o Improved quality of life with 360-degree view
of patient health, mood, and behavior
o More effective population health management
BENEFITSSOLUTION
Dartmouth-Hitchcock created ImagineCare, a new
consumer-focused solution based on the Microsoft
Cortana Analytics Suite and Microsoft Dynamics CRM.
ImagineCare collects and analyzes real-time and
historical data from medical and health devices and
electronic health records, and then surfaces metrics
including predictive analytics in clinical dashboards
and mobile apps. Clinicians can adjust treatment
plans and immediately alert patients to changes, and
patients and doctors can collaborate in real time.
DARTMOUTH-HITCHCOCK
Personalized care delivers
healthier populations
“This system is really transforming how we can deliver health and wellness to
the population. Despite all of the technology involved, ImagineCare does
not lose that human touch, which is so important.”
Nathan Larson
Director of Remote Medical Sensing
25. Customize
cluster?
Proces tworzenia klastra (technicznie)
Sesja RDP do klastra (ale
bez gwarancji trwałości)
Ręcznie
Zarządzanie i konfiguracja
Hive/Oozie Metastore
Storage accounts & VNET’s
ScriptAction
Za pomocą portalu
Ready for
deployment
Accepted
Cluster
storage
provisioned
AzureVM
configuration
Running
Timed Out
Error
Cluster
operational
Configuring
HDInsight
Cluster
customization
(custom script
running
Config values
JAR file placement in
cluster
PowerShell/SDK
No
Yes
26. Integracja z Visual Studio
Dostarczana razem z Azure SDK
Wsparcie dla VS 2012, 2013 i 2015
Proste zarządzanie klastrem (głownie z perspektywy Hive)
Podgląd powiązanych zasobów
Tworzenie tabel
Uruchamianie kwerend Hive
Podgląd postępów przetwarzania
Lokalna walidacja skryptów
IntelliSense
27. Integracja z Visual Studio
27
Budowanie topologii Storm
Gotowe szablony
Wsparcie dla spoutów i boltów tworzonych w C#
Topologie heterogeniczne (.NET i Java)
Monitorowanie topologii
Debugger
30. Proces ETL
Specjalizowane narzędzia ETL (np. SSIS)
Zdefiniowany schemat
Kwerendy
Rezultat
Relacyjne
Aplikacje
biznesowe
Tradycyjny sposób patrzenia na analitykę
1. Zebranie wymagań od użytkowników na potrzebne zestawienia i
raporty
2. Określenie schematu danych i optymalnych zapytań
3. Zidentyfikowanie potrzebnych źródeł danych
4. Budowa procesu ETL w oparciu o z góry narzucony schemat
danych.
5. Stworzenie raportów.
Niepotrzebne dane są usuwane lub archiwizowane
30
31. Jak najdłuższe
przechowywanie
Analiza Rezultaty
Zebranie informacji
ze wszystkich
źródeł
Iteracja
Nowe podejście: Wszystkie dane mają wartość
Nie jesteśmy w stanie określić wartości danych z góry
Kolekcjonowanie danych staje się nawykiem
Brak narzuconych schematów danych – różne formaty natywne
Schemat danych zależy od sposobu ich przetwarzania i zależny jest od zapytań
Aplikacje i użytkownicy traktują dane jako dobro wspólne
31
32. Zintegrowana usługa
przechowywania i analizy danych
W pełni zarządzana
Łatwa w użyciu
Sprawdzona w dużej skali
Dowolny typ, rozmiar i format
danych
Oparta o otwarte standardy
Microsoft Azure Data Lake
YARN
HDFS
HDInsightAnalytics
Service
Store
Partners
U-SQL
Clickstream
Sensors
Video
Social
Web
Devices
Relational
Applications
32
33. Rozproszony system plików
Zoptymalizowany pod kątem
przetwarzania danych
Brak ograniczeń pojemności
Dowolny format danych
Wysoka dostępność (w tym
georeplikacja)
WebHDFS REST API
Wspierany przez wszystkie
wiodące dystrybucje Hadoop
Przystosowane również dla
scenariuszy IoT
Azure Data Lake: Store
YARN
HDFS
HDInsightAnalytics
Service
Store
U-SQL
Clickstream
Sensors
Video
Social
Web
Devices
Relational
Applications
33
34. ADL Store jest kompatybilny z HDFS
Map reduce
HBase
transactions
Any HDFS applicationHive query
Azure HDInsight
Hadoop WebHDFS client
Hadoop WebHDFS client
WebHDFS
endpoint
WebHDFS
REST API
WebHDFS
REST API
34
ADL Store file ADL Store file ADL Store file ADL Store fileADL Store file
Azure Data Lake Store
35. ADL Store i bezpieczeństwo: RBAC
Każdy plik i katalog ma swojego
właściciela (grupę)
Osobne uprawnienia (RWX) dla
właścicieli, członków grupy i
pozostałych użytkowników
Można zarządzać ACLami z portalu
lub za pomocą linii komend
35
36. ADL Store i bezpieczeństwo: szyfrowanie
Szyfrowanie danych podczas
transmisji (HTTPS) i przy zapisie
Użytkownicy będą mogli samodzielnie
zarządzać kluczami lub skorzystać z
usługi Azure Key Vault
36
38. Azure
Data Lake
Analytics Service
Alternatywa do
Hadoop
Oparty o Apache YARN
Dynamiczne skalowanie bez myślenia o
klastrach
Opłaty za ilość zapytań
Wsparcie dla Azure AD w celu kontroli
dostępu i integracji z lokalnymi
środowiskami
Korzysta z U-SQL aby połączyć wygodę
SQL z elastycznością C#
38
39. Po co kolejna usługa?
39
Nieograniczona
pojemność
Automatyczne
skalowanie
Zrównoleglanie
skryptów U-SQL
010010
100100
010101
Ten sam kod Integracja z VS
Debugger,
optymalizacja zapytań,
monitorowanie itd..
Łatwiejsza
nauka
Pochodna SQL i C#
40. Jak to wygląda w praktyce?
Wiele języków:
U-SQL, Hive, & Pig
Łatwa integracja z .NET
41. ADLA ma uzupełniać HDInsight
Podobne zastosowania, narzędzia i klienci
HDInsight
Dla miłośników open source: Java,
Eclipse, Hive itd.
Konfigurowalne i elastyczne klastry
w postaci zarządzanej usługi
ADLA
Dla dotychczasowych użytkowników
C#, SQL i PowerShella
Wygoda, wydajność i automatyczna
skalowalność – „job service”
42. Zapytania U-SQL: Wzorzec działania
PrzetwarzanieOdczyt Zapis
INSERT
OUTPUT
OUTPUT
RowSetSELECT…
FROM…
WHERE…
EXTRACT
EXTRACT
SELECT
SELECT
Azure
Data
Lake
Azure
Data
Lake
Azure
SQL
DB
Azure
Storage
Blobs
Azure
Storage
Blobs
15
RowSet
43. U-SQL i rozszerzenia
Wbudowane
operatory, funkcje i
agregaty
C# expressions (in SELECT statements)
User-defined aggregates (UDAGGs)
User-defined functions (UDFs)
User-defined operators (UDOs)
43
44.
45.
46. Azure SQL Data Warehouse
Relacyjna hurtownia danych w modelu usługowym, zarządzana w chmurze przez Microsoft.
Najbardziej elastyczny model rozliczeniowy na rynku z wbudowanymi możliwościami klasy Enterprise.
Możliwość integracji ze środowiskami chmurowymi lub on-premise.
Prosty model rozliczeniowy oparty o
przechowywane dane i czas obliczeń
Płatność zależna od realnych potrzeb
Wysoka wydajność bez potrzeby zmiany
architektury aplikacji
Niski koszt przechowywania
nieużywanych danych
Zarządzanie, wsparcie i niezbędna
infrastruktura zawarta w cenie
Przetwarzanie MPP petabajtów danych
Przeskalowanie środowiska w mniej niż minutę
Szybsze rezultaty obliczeń
Płatność tylko za realne zużycie
Ścisła integracja z pozostałymi
składnikami platformy Azure
Możliwość budowy rozwiązań
hybrydowych
SQL Server w tle
51. ASA jako element architektury systemu
Data Source Collect Process ConsumeDeliver
Event Inputs
- Event Hub
- Azure Blob
Transform
- Temporal joins
- Filter
- Aggregates
- Projections
- Windows
- Etc.
Enrich
Correlate
Outputs
- SQL Database
- Blob Storage
- Event Hub
- Power BI
- Table Storage
- Service Bus Queue
- Service Bus Topic
- DocumentDb*
Azure
Storage
• Temporal Semantics
• Guaranteed delivery
• Guaranteed up time
Azure Stream Analytics
Reference Data
- Azure Blob
- …
59. Wykrywanie anomalii
• Wykrywanie włamań
• Wadliwe egzemplarze produktów
• Zaawansowany monitoring infrastruktury IT
Nietypowa aktywność
Działalność hakerów lub terrorystów, próby włamań do
systemów bankowych, telekomunikacyjnych…
Błąd narzędziowy
Uszkodzenia lub zużycie sprzętu
Zmiana środowiska
• Pogoda, nowe wzorce zakupowe, mutacje w genach
Błąd ludzki
Przekładający się zwykle na różnicę w danych wejściowych
60. Input Dataset
Feature
Selection
Training set Testing set
Algorithm
Train Model Score Model
Evaluate
Model
Budowa modelu ML
Age Workclass Education Occupation Sex Hours-per-week Income
39 State-gov Bachelors Adm-clerical Male 40 <=50K
50 Self-emp-not-inc Bachelors Exec-managerial Male 13 <=50K
38 Private HS-grad Handlers-cleaners Male 40 <=50K
53 Private 11th Handlers-cleaners Male 40 <=50K
28 Private Bachelors Prof-specialty Female 40 <=50K
37 Private Masters Exec-managerial Female 40 <=50K
49 Private 9th Other-service Female 16 <=50K
Publish Model
66. Przykład: profilowanie użytkowników
Copy new users
to blob storage
Join and aggregate
activity per week
and user table
Weekly
Privacy:
Refresh:
Xbox New
Users
Game New
Users
Game Activity
Per Week
Daily
New User Activity Per
Week
Contains PII
Weekly, Mon
by 8AM