3. 3
› Spolupráca funguje od roku 2015
› V roku 2018 sa spolupráca stala trojstrannou a pridala sa MFF UK
› Základným princípom spolupráce je reciprocita:
• Zdieľame dáta
• Získavame know-how a prístup k posledným technológiám
• Motivujeme bankové use-cases pro Data Science
• Identifikujeme perspektívne riešenia a zavierame slepé cesty
› Realizácie formou PoC
+
4. 4
+
› Vybudovanie Hadoop cluster a integrácia dát
› Salary detector – porovnanie prístupov, heuristický X analytický (bayes)
› Household detector – identifikácia párov
› Analýza chovania klientov pri online žiadostiach
› Odchod úverového klienta, retencia
› Match offer a ponuka optimálnej úrokovej sadzby
› Modelovanie propensity pro úverové produkty
– MFF grant, podobnosti a pseudosociálne siete
6. 6
Data Science v bankovnictví
Business Experts Technical Experts
?
7. 7
Osnova
› Představení
› Prediktivní modelování 1.0
› Propensitní model
– Z pohledu Byznysu
– Z pohledu Data Science
– Z pohledu IT
› Výsledky pilotního běhu
8. 8
Prediktivní modelování 1.0
Klient
• Muž, 28 let
• Praha 6
• VŠ, zaměstnaný
• Příjem 32 000 / měs.
Funguje překvapivě dobře
Není vůbec snadné ho porazit
Matice
příznaků
Úvěr
vezme
nevezme
• Logistická regrese
• Rozhodovací stromy
• Bayesovské modely
• Neuronové sítě
• …
Model
9. 9
› Co kdybychom znali sociální síť klienta?
› Dokážeme:
– Rozpoznat mikrosegmenty (soc. kontext, podobné chování)
– Rozpoznat události (změny kontextu v čase)
› Zdrojem modelování jsou bankovní transakce
– Přesuny peněz vytvářejí digitální stopu
› Výzkum na reálných bankovních datech
– 2018-2020 Matematicko-fyzikální fakulta UK
– Anonymizovaná data (několikaletá historie)
Výzkumný grant TAČR
MICROTARGETING
11. 11
Propensitní model: byznysový pohled
› Model jako metoda výběru
– Každému klientovi přidělí pravděpodobnost
– Seřadí klienty od nejlepších po nejhorší
› Hlavní způsoby použití
1. Efektivní využití limitovaného kanálu
• například call centrum
2. Výběr jen responzivních klientů
• vzhledem k času
3. Next best offer
• Výběr z více možností (úvěr nebo investice)
• Nabídka s nejvyšší nadějí (např. banner)
1 : 20
1 : 5 1 : 40
%
12. 12
1510
0% 10% 20% 30% 40% 50%
Velikost výběru
Lift
Model 1
Model 2
▼
Propensitní model: profitabilita
Přínos modelu:
› 𝑿 – Velikost výběru
– dána kapacitou kanálu
› 𝑳 – Lift
– kolikrát větší response
› 𝑹 𝟎 – Základní response rate
– odpovídá náhodnému výběru
› 𝒊𝒏𝒄 – Jednotkový výnos
– Průměrný výnos z 1 úvěru
𝑿 ∙ ∆𝑳 ∙ 𝑹 𝟎 ∙ 𝒊𝒏𝒄
Příklad: 𝟐𝟓 𝟎𝟎𝟎 ∙ 7,5 − 5 ∙ 𝟐% ∙ 𝟏𝟎 𝟎𝟎𝟎 Kč = 𝟏𝟐, 𝟓 𝐦𝐢𝐥. 𝐊č
14. 14
Sociální a pseudosociální sítě
› Sociální sítě
– Lidé, které skutečně znáte (rodina, přátelé, kolegové z práce…)
– Prodrobněji ve druhé polovině
› Pseudosociální sítě
– Lidé s podobnými vzorci chování
Klient Protistrana DateTime Částka
123456 345678 20181106-07:25:14 206,16
234567 456789 20181106-08:36:14 27,70
345678 567890 20181106-09:47:14 450,00
456789 678901 20181106-10:58:14 1587.27
567890 789012 20181106-11:09:14 3.15
678901 890123 20181106-12:10:14 206,16
789012 901234 20181106-13:21:14 27,70
890123 012345 20181106-14:32:14 4150,00
901234 123456 20181106-15:43:14 1587.27
123456 345678 20181106-07:25:14 13.15
234567 456789 20181106-08:36:14 20,16
345678 567890 20181106-09:47:14 27,70
456789 678901 20181106-10:58:14 450,00
567890 789012 20181106-11:09:14 1587.27
678901 890123 20181106-12:10:14 3.15
789012 901234 20181106-13:21:14 206,16
890123 012345 20181106-14:32:14 27,70
901234 123456 20181106-15:43:14 450,00
15. 15
Grafové embeddingy
› Projekce do prostoru souřadnic
– Modely operují v kartézském prostoru
– „Kontext“ bývá z podstaty nekartézský (slova, grafy,…)
EMBEDDING
17. 17
Technologie a implementace
APACHE SPARK SQL
BUSINESS
KNOWLEDGE
DWH
A B TM $
TRANSACTIONS
#
#
#
#
Technologické platformy: Hadoop nebo Cloud (Databricks na Azure nebo AWS)
18. 18
Implementace
› Python
– Hlavní vývojový jazyk (ml/mlops knihovny, optimální poměr vývojového a
běhového času, lze dodržovat standardní sw. proces)
› Modelové flow – metadatová registrace artefaktů
– Výpočty jednotlivých součástí trvají hodiny a dny, nelze spouštět v jednom
běhu. Desítky modulů fungují v kontraktačním režimu.
› Implementace v Cloudu
– Začali jsme vývojem na Hadoop, ale stavíme i cloud verzi – rychlé pilotování.
19. 19
› Cíl: Propensitní modelování pro cílený marketing
TRANSACTIONS
& CLIENT DATA SIMILARITIES NETWORKS SCORING TARGETING
› Byznys case
› Nejlepší možná predikce zájmu o půjčku
› Zaměřeno na optimalizaci využití kanálů
› Pilotní implementace v Equa Bank, a.s.
› Výkon modelu až na úrovni 87 %AUC
Shrnutí