Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

BIDataMining

97 views

Published on

  • Be the first to comment

  • Be the first to like this

BIDataMining

  1. 1. Data mining Základy teorie a uplatnění v praktickém řízení Semináře business inteligence a podpora rozhodování Přednáší Filip Železný
  2. 2. Mindec semináře, © Mindec, sro, 2008 226.11.2016 2 Data Mining  Fayyad et al: „Data Mining je netriviální proces identifikace pravdivých, dosud neznámých, potenciálně využitelných a naprosto srozumitelných vzorů v datech“  Vzor (pattern) = obecný princip, souvislost, tvrzení nalezený v datech  Vzor reprezentuje znalost  „Dobývání znalostí z dat“ (Knowledge Discovery in Data, KDD)  Účel: zlepšení rozhodovacích procesů
  3. 3. Mindec semináře, © Mindec, sro, 2008 326.11.2016 3 Příklady vzorů  Častá asociace v nákupních košících  pivo + dětské pleny  Implikace  IF horečka AND bolest_svalů THEN chřipka  Graf  Rovnice  Atd.
  4. 4. Mindec semináře, © Mindec, sro, 2008 426.11.2016 4 Prediktivní klasifikace  Jedna z nejčastějších DM úloh  Predikce cílové veličiny (třídy) na základě ostatních veličin (příznaků)  Příklad  Příznaky: historie nedávných transakcí zákazníka  Třída: odchod ke konkurenci v následujícím měsíci (ano/ne)
  5. 5. Mindec semináře, © Mindec, sro, 2008 526.11.2016 5 Prediktivní klasifikace  Klasifikovaná (trénovací) data  Tvorba klasifikátoru (hledání vzorů)  Využití klasifikátoru Zákaznická data Zákaznická data A N A A N A N A A N ODEŠEL? Zákaznická data Zákaznická data ? ? ? ? ? ? ? ? ODEJDE?
  6. 6. Mindec semináře, © Mindec, sro, 2008 626.11.2016 6 Příklady klasifikátorů  Rozhodovací pravidla  Symbolický model  Výhoda:  přímá interpretace  možnost cíleného zásahu IF age > 50 & income > 105 THEN loyal
  7. 7. Mindec semináře, © Mindec, sro, 2008 726.11.2016 7 Příklady klasifikátorů  Rozhodovací strom ageage incomeincomeyes >50 >105 no yes
  8. 8. Mindec semináře, © Mindec, sro, 2008 826.11.2016 8 Příklady klasifikátorů  Nesymbolické modely, např. umělé neuronové sítě  Prediktivní schopnost může být vysoká, ale znalost je skryta
  9. 9. Mindec semináře, © Mindec, sro, 2008 926.11.2016 9 Příklady klasifikátorů  Předpovídat lze i bez klasifikátoru  Např. srovnáním aktuálního zákazníka s několika „nejpodobnějšími“ v databázi  „Nearest neighbor classification“  Neidentifikuje kritické příznaky  Neodpovídá na otázku, proč odcházejí
  10. 10. Mindec semináře, © Mindec, sro, 2008 1026.11.2016 10 Regrese  Podobná klasifikaci, ale cílová veličina je reálné číslo  Např. cena akcie  Stejné fáze a „ingredience“  Klasifikovaná data, hledání regresoru, využití pro predikci na neklasifikovaných datech
  11. 11. Mindec semináře, © Mindec, sro, 2008 1126.11.2016 11 Shlukování  Žádná cílová veličina (třída), pouze popisy objektů (např. zákazníků)  Cílem je rozdělit objekty do přirozených shluků  Objekty v jednom shluku podobné  Objekty v různých shlucích rozdílné  Aplikace zejm. v segmentaci
  12. 12. Mindec semináře, © Mindec, sro, 2008 1226.11.2016 12 Shlukování  Příklad: 3 numerické příznaky zákazníka  věk, příjem, doba smlouvy  Lze snadno zobrazit ve 3D  Zákazník – bod, příznaky – souřadnice  Shluky lze najít pouhým okem
  13. 13. Mindec semináře, © Mindec, sro, 2008 1326.11.2016 13 Shlukování  Obvykle je dimenze prostoru (počet příznaků) mnohem větší než 3  Stovky, tisíce, ...  Příznaky např. z historie transakcí  Jeden příznak např. počet zakoupených položek dané kategorie  Shlukovací algoritmy „vidí“ shluky i v těchto dimenzích  Související úkol: charakterizovat segmenty typickými vlastnostmi
  14. 14. Mindec semináře, © Mindec, sro, 2008 1426.11.2016 14 Hledání asociací  Market basket analysis  Vstupem je transakční databáze  Např. obsahy nákupních košíků v supermarketu  Cílem je najít n-tice položek často se vyskytujících v košíku zároveň  Účel: např rozmístit daleko od sebe  Slavný algoritmus APRIORI  90. léta, impuls pro data mining
  15. 15. Mindec semináře, © Mindec, sro, 2008 1526.11.2016 15 Detekce podskupin  Na pomezí shlukování a klasifikace  Hledání segmentů s rozdělením třídy významně odlišným od celé populace Kupuje pyrotechniku Nekupuje pyrotechniku Segment: muži do 18 let
  16. 16. Mindec semináře, © Mindec, sro, 2008 1626.11.2016 16 Další metody  Mnoho dalších „podmetod“  Např. detekce výjimek (outlier detection)  Podobné shlukování, ale hledají se individua odlišná od ostatní masy  Další metody přizpůsobené speciálním typům dat  Relační data mining  Text-mining, web-mining, time series mining, signal processing, ....
  17. 17. Data Mining Validace výsledků
  18. 18. Mindec semináře, © Mindec, sro, 2008 1826.11.2016 18 „Past“ data miningu  Oba vzory platné v datech.  Který z nich je pravdivý?  Nelze rozhodnout s jistotou.  Jednodušší má obvykle přednost Vzor 1 Vzor 2 X Y Data (x1,y1), (x2,y2), ...
  19. 19. Mindec semináře, © Mindec, sro, 2008 1926.11.2016 19 Validace vzorů  V kterýchkoliv datech lze nalézt nějaké vzory.  V dostupných datech mohou platit jen náhodou  Nemusí mít nic společného se skutečností  Google define:Data Mining : “Data mining is the equivalent to sitting a huge number of monkeys down at keyboards, and then reporting on the monkeys who happened to type actual words.”
  20. 20. Mindec semináře, © Mindec, sro, 2008 2026.11.2016 20 Základní techniky ověřování  Správné ověření vzorů odlišuje data mining od šarlatánství  Nalezené vzory testujeme na datech, která jsme nepoužili pro jejich hledání  Výsledkem je statisticky nezaujatý odhad
  21. 21. Mindec semináře, © Mindec, sro, 2008 21 SÉMANTICKÉ A SOCIÁLNÍ SÍTĚ, WEB 2.0, ... NOVÉ VÝZVY PRO DATA MINING 26.11.2016 21
  22. 22. Mindec semináře, © Mindec, sro, 2008 22 Skryté znalosti  Znalosti v podniku  Explicitní  Strukturované, počítačově srozumitelné  Např. relační databáze  Umožňují počítačovou inferenci: dotazování, odvozování, ...  Implicitní (tacit)  Dokumenty  Obsahy emailů, přílohy  Dynamika dokumentů v podniku (procesy)  ...  Drtivá většina podnikových znalostí je implicitních  Těžko využitelných  Převedení do explicitní formy může zvýšit efektivitu 26.11.2016 22
  23. 23. Mindec semináře, © Mindec, sro, 2008 23 Jak to řeší Web (2.0)  Znalosti na webu: analogický problém  Obrovská spousta, ale počítačově nesrozumitelné  Přístup „zdola nahoru“  Kolektivní tvorba (WIKI)  Kolektivní značkování (např. bookmarking - del.icio.us)  Techniky v současnosti přijímány v korporacích  nízké náklady  Nevýhoda: mnoho to neřeší  „mělká sémantika“  Znalosti jsou uspořádány, ale obsah stále není počítačově interpretovatelný 26.11.2016 23
  24. 24. Mindec semináře, © Mindec, sro, 2008 24 Jak to řeší Web (2.0)  Přístup „shora dolů“: sémantický web  Znalostní doména podniku vymezena ontologiemi  Taxonomie konceptů  Zdroj, člověk, zaměstnanec, muž, ...... . projekt, aktivita, úkol, profit  Axiomy (pravidla)  Ontologie = jednotný slovník pro formulaci znalostí  Základní předpoklad business intelligence  Nákladný přístup  Tvorba a udržování ontologie  Tvorba obsahu, značkování  Lze to udělat levněji?  CyCorp (USA)  Obecně využitelná „ontologie všeho“, nevalný úspěch 26.11.2016 24
  25. 25. Mindec semináře, © Mindec, sro, 2008 25 Výzva pro Data Mining 26.11.2016 25 Stávájící (legacy) obsah Dokumenty Organizační struktura Web 2.0 technologie Wiki Značkování LinkedIn, Facebook, .. Sociální sítě Výměny emailů Instant messaging Dynamika dokumentů Kolektivní tvorba LinkedIn, Facebook DATA MINING Explicitní využitelná znalost
  26. 26. Mindec semináře, © Mindec, sro, 2008 26 Příklady využití  Identifikace pracovního kontextu  Časté změny pracovního kontextu: zásadní škůdce produktivity  Faktor zavedený novými komunikačními technologiemi  Automatické řízení komunikace podle kontextu  Pozdržení irelevantních emailů, IM busy flags, telefony, busy/free servers, ...  Řazení dokumentů (např. při vyhledávání) dle aktuálního kontextu  Klasifikační úlohy:  Identifikace kontextu z aktuálních projektů, úkolů, aktuálně otevřených dokumentů (vlastních i spolupracujících), ...  Identifikace relevantních zpráv, osob, ... 26.11.2016 26
  27. 27. Mindec semináře, © Mindec, sro, 2008 27 Příklady využití  Segmentace zaměstnanců (shlukování)  Kdo s kým komunikuje, o jakých projektech  Kdo s kým tvoří dokumenty, ....  Přirozené shluky aktivit  Návod jak změnit organizační strukturu?  Je některý shluk produktivnější než jiné?  Přenos praktik  Hledání implicitních procesů  Kudy dokumenty putují, kdo zakládá, kdo reviduje, které jdou spolu, jakou komunikací jsou doprovázeny, ...  Rozdílné procesy pro stejný typ projektu u jiných týmů  Který je efektivnější?  Přenos praktik 26.11.2016 27
  28. 28. Mindec semináře, © Mindec, sro, 2008 28 Hloubkové analýzy sociálních sítí  Emaily (příchozí, odchozí)  Hovory (příchozí, odchozí)  Identifikační systémy  Pracovní skupiny  Týmy  Osobní sítě  Vlivová centra  Identifikace problémových osob, skupin, lídrů  Procesy  Workflow  Detekce zneužití  Úniky dat

×