Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2020: AutoML, aneb nahradí roboti analytiky?

74 views

Published on

Jan Matoušek na konferenci Data Restart 2020: Připraví AutoML datové vědce o práci? Na trhu je patrný razantní nástup automatického machine learningu. Budeme bez práce, nebo naopak? Anatomie AutoML systému, jeho výhody a nevýhody. Jaká práce zbývá? Vyřeší to všechny naše problémy automaticky?

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

2020: AutoML, aneb nahradí roboti analytiky?

  1. 1. …cílíme přesně AutoML ANEB NAHRADÍ ROBOTI ANALYTIKY?
  2. 2. Technologie Business JAN MATOUŠEK / DATA MIND HLAVNI ANALYTIK, CEO 1995 SPSS Statistics 2003 SPSS Modeler 2013 R 2016 Python 2018 Deep learning 2020Auto ML strana 2 1998 Cati programátor 2003 O2/ Eurotel Zákaznická Segmentace 2013+ Data Mind desítky modelů segmentačních, predikčních, next-best-offer apod. „Kdo se každý rok nenaučí novou věc, je mrtvý analytik“
  3. 3. Automl Naive Blueprint – Přísliby nebo kecy? • Od syrových dat po produkční prostředí Všechno samo • je tak chytrý, že se sám zoptimalizuje Umělá inteligence řídí umělou inteligenci • S autopilotem to dá každý Pro každého/ nováčky / manažery Co je AutoML? Stavební kameny ML +Automatizace Prediktivní analytika
  4. 4. AnatomieAutoML systému – co je Auto ML technicky •Automatizované Feature engeneering •Tj. Automatická tvorba odvozených proměnných •Například logaritmy a jiné transformace •Interakce proměnných •Faktory •Clustery z proměnných •Testovací a validační vzorky Příprava dat II • Výběr a vývoj jednotlivých algoritmů • Hledání optimálních parametrů modelu • Tj. vyzkoušíme všechny varianty a necháme nejlepší • Vyhodnocení nejlepších modelů • „Ansámbl“ • Sborový model složený ze všech či několika nejlepších modelů Modelování • Výsledky modelů • Testy stability na validačních a testovacích datech • Deskriptivní statistiky • Pokročilé nástroje • Skóringová soustava skriptů • (Skoring pipeline) • Zjednodušené modely pro interpretaci • Deployment (nasazení) do API či pipeline Interpretace a nasazení
  5. 5. Jakou část práce nám Auto ML nahrazuje Nahrazuje ■Ladění a výběr modelů ■Druhou část přípravy dat  Ladění nezávislých proměnných ■Některé, technické části vyhodnocení Nenahrazuje ■Správně určený target – cílovou proměnnou  NapříkladVýpověď, Nákup, CustomerValue ■Časový a koncepční design prediktivních modelů ■Porozumění businessu a významu dat
  6. 6. 3 kategorieAuto ML Open source ■ Komunitní Open source  Auto Sklearn, Auto Keras,TPOT Specializovaný startup ■ Data Robot (komerční) ■ H20 (Open source i komerční ) Technologický gigant ■ IBM SPSS (Auto classifier, licenční model) ■ Google Auto ML (Výpočetní pay as you go) ■ Amazon Sagemaker Autopilot ■ MS Azure AutoML *LOGA a názvy jsou majetkem jejich vlastníků /autorů
  7. 7. Jak se liší ambice jednotlivých řešení Základní automatizace s ambicemi ■ Auto - Sklearn (Open)  Automatizuje základní ladění parametrů a část datové přípravy  Funguje dobře na malých a středních datech  První zastávka na cestě ■ Auto – Keras (deep learning a obrázky) ■ TPOT (Open)  Pokročilejší a ambiciózní projekt „konkurenční“ k Auto - Sklearn  Tree-based Pipeline Optimization Tool Zjednodušuje mnoho oblastí ■ IBM SPSS ModelerAuto* Modely (Komerční)  Spouštění několika modelů, výběr nejlepšího, deployment ■ H2O (Open)  Poměrně kompletní sada i se základním uživatelským rozhraním Plnohodnotná automatizace ■ GoogleAutoML (Komerční)  I pro nováčky, plná automatizace, málo možností, trochu blackbox ■ Data Robot (Komerční)  Uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment ■ H20 Driverless (Komerční)  Velmi pokročilé uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment Kompletní Řešení Zdarmaaotevřené *LOGA jsou majetkem jejich vlastníků / autorů
  8. 8. Poměry v táboře - Google trends vyhledávací dotazy
  9. 9. Co říkají drahé** agentury Gartner visionáři 2020 *OCHARNNÉ známky agentur jsou majetkem jejich vlastníků **Synonymum vážené; Zdroj: Agentury Gartner a Forrester Gartner Magic Quadrant for Data Science and Machine Learning Platforms
  10. 10. Case study Predikce prodeje módní obuvi DEEP DIVE – NEUTOPTE SE strana 10
  11. 11. Jak dobré ty systémy jsou Problém: ■Predikce dalšího nákupu obuvi u stávajících, registrovaných zákazníků ■Data: Reálná, anonymizovaná cca 60 tisíc, 20 tisíc pozitivních Benchmark řešení Model Technologie CPU – minut Čas data scientist Logistická regrese IBM SPSS Statistics 0 10 hodin AutoML H20 Driverless AI 20 1 hodina AutoML H20 (Open) 30 2 hodiny
  12. 12. Logistická regrese - cca 10 hodin práce ■Interakce významným proměnných  Ruční zadání do kódu či interaktivně ■Výběr proměnných  Poloautomatický, komerční software IBM SPSS Statistics (starší verze) ■Ladění parametrů modelu  Statistická významnost  Parametry výběru proměnných  Testovací vzorky  Stabilita modelu
  13. 13. H20 Driverless AI
  14. 14. H20 Driverless AI
  15. 15. H20 Open source
  16. 16. H20 Open source
  17. 17. …cílíme přesně Benchmark
  18. 18. Porovnání na ROC křivkách (x= true positive, y= false positive) Logistic regression + 10h data scientist H20 Driverless AI Default, bezpracné H20 (Open) +1-2 hodiny práce, default AUC = 0,73 AUC = 0,74 AUC = 0,75 • 2-3 % nárůst výkonu díky Auto – ML řešením • Jednoznačná úspora času • Automatický výběr pokročilého modelu
  19. 19. Závěry - Připraví AutoML data scientisty o práci? • Hledání parametrů • Výběr algoritmu • Odvozené a transformované proměnné • Sestavení skoringové pipeline (částečně) • Obchodní cíle • Doménová znalost • Definice úloh • Použití modelů v praxi • Stabilita v čase • Obchodní část interpretace
  20. 20. www.datamind.cz Data Mind s.r.o., Pobřežní 18/16, 186 00 Praha 8 Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů. Jan Matoušek jan.matousek@datamind.cz +420 720 705 639

×