2. Obsah Prezentace
Přiblížení pojmu strojového učení
Oblasti použití
Příklady:
analýza registrací
optimalizace landing page
hledání skupin zákazníků
Implementace metod strojového učení
Typické problémy
3. Strojové Učení
Metodologie pro získávání skrytých informací z dat
Mezní obor mezi umělou inteligencí a statistikou
Klasifikace
Seskupování
Vyhledávání
Doporučování
Hledání vzorů chování
A další, pro nás teď nezajímavé oblasti
4. Typické Použití
Cílený marketing
Cross selling
Odchod zákazníků
Fraud detection
Credit risk
Spam filtering
Recommendation engines
Farmacie
a další
6. Analýza Registrací (1/3)
Provozujeme aplikaci a máme zájem zjistit, které faktory
ovlivňují registrace
Zjištěné údaje (analytics, logy apod).
Referrer Lokalita Četl FAQ Page Views Registrace
Google USA Ne 18 None
Seznam CR Ano 25 Free
Google India Ne 2 None
(Direct) USA Ne 14 Free
Google USA Ano 25 Premium
...
7. Rozhodovací Stromy
V praxi nejpoužívanější metoda
Jednoduchá na interpretaci
Jako vstupní data možno použít:
číselné údaje
logické hodnoty
textové popisky kategorií
Funguje i s chybějící informací
9. Analýza Registrací (3/3)
Problémy:
Výsledek je příliš vázán na data
Strom může být příliš rozsáhlý
Řešením je prořezání stromu: odstranění částí, které podstatně
neovlivňují výsledek.
Prořezávání se dle potřeby děje automaticky či manuálně.
10. Optimalizace Landing Page
Využití předchozího přístupu "on the fly":
1. Vygenerujeme a prořežeme strom
2. Zaznamenáme chování uživatele
3. ????*
4. Profit
* = dle klasifikace nabízíme speciální nabídku
11. Clustering (1/2)
Hledání skupin podobných objektů v datech.
Objektem může být:
Výsledky průzkumů a anket
Informace o chování zákazníků
Seznam kupovaných výrobků
Problém velkých datasetů
12. Clustering (2/2)
Omezeně můžeme využít obyčejné SQL
Pro hledání složitějších závislostí existují lepší postupy:
hierarchické členění
k-means clustering: pro hledání k skupin
density based clustering
14. Implementace postupů
Používání standardních algoritmů
Prakticky nulová invence implementátora
Knihovny pro ML pro téměř každý jazyk
Samostatné nástroje:
Free: Weka, R, Orange, ...
Placené: SPSS, SAS, Matlab, ...
15. Typické problémy
Velké nebezpečí u lidí, kteří tomu rozumí "tak trochem".
Validnost modelu:
jsou výsledky správné?
"bias" problém
black-box metody
Problémy s intuicí:
část problémů je navíc neintuitivních