SlideShare a Scribd company logo
1 of 31
Sergii Stamenov 1. února 2018
Detekce domácností v
telekomunikacích
Data
› CRM (individuální zákazníci)
– jméno, příjmení, věk, pohlaví, fakturační adresa
› Volání a SMS
– 2 měsíce
– kdo, komu, kdy, kde, jak dlouho
– cca 200 GB
› Poloha
– 1 měsíc
– kdo, kdy, kde
– cca 500 GB
Trénovací množina
3
Začneme s daty ze CRM, která
obsahují jméno, příjmení, pohlaví,
věk a kontaktní adresu
Trénovací množina
4
Spojíme zákazníky na stejné
kontaktní adrese se stejným
příjmením
Trénovací množina
5
Spojíme zákazníky na stejné
kontaktní adrese se stejným
příjmením
Omezíme se na zákazníky
opačného pohlaví
6
Trénovací množina
6
Spojíme zákazníky na stejné
kontaktní adrese se stejným
příjmením
Omezíme se na zákazníky
opačného pohlaví
Věkový rozdíl mezi zákazníky
<= 15 let
7
Kontrolní množina
7
Šárka, 26Tomáš, 25
Ž, 28
M, 50
M, 29
8
Kontrolní množina
Šárka, 26Tomáš, 25
M, 50
M, 29
Omezíme se na zákazníky
opačného pohlaví
9
Kontrolní množina
9
Šárka, 26Tomáš, 25 M, 29
Omezíme se na zákazníky
opačného pohlaví
Věkový rozdíl mezi zákazníky
<= 15 let
Domácnosti mezi sebou komunikují víc
ODCHOZÍ
VOLANÍ
PŘÍCHOZÍ
VOLANÍ
ODCHOZÍ
SMS
PŘÍCHOZÍ
SMS
VOLÁM JENOM
MANŽELCE
VŮBEC NEVOLÁM
MANŽELCE
DOMÁCNOSTI
OSTATNÍ
Domácnosti posílají kratší SMS
DELŠÍ SMS
KRATŠÍ SMS
ODCHOZÍ PŘÍCHOZÍ
DOMÁCNOSTI
OSTATNÍ
Domácnosti mají dlouhodobý vztah
DOMÁCNOSTI
OSTATNÍ
POČETDNŮ
Výsledky modelování
Predikce
jiny rodina
Realita
jiny 5000 123
rodina 150 555
Predikce
jiný
vztah
rodina
Realita jiný vztah 5000 123
rodina 150 555
Výsledky modelování
Predikce
jiny rodina
Realita jiny 5000 123
rodina 150 555 𝑃𝑟𝑒𝑠𝑛𝑜𝑠𝑡 =
555
555 + 123
= 0.81
Predikce
jiný
vztah
rodina
Realita jiný vztah 5000 123
rodina 150 555
Výsledky modelování
Predikce
jiný
vztah
rodina
Realita jiný vztah 5000 123
rodina 150 555
Falešný poplach
když já a můj kamarád
budeme označeni jako pár
Výsledky modelování
Predikce
jiný
vztah
rodina
Realita jiný vztah 5000 123
rodina 150 555
𝑅𝑒𝑐𝑎𝑙𝑙 =
555
555 + 150
= 0.78
Výsledky modelování
Predikce
jiny rodina
Realita jiny 5000 123
rodina 150 555
Ztracená příležitost
Když neoslovím nějakou rodinu
Predikce
jiný
vztah
rodina
Realita jiný vztah 5000 123
rodina 150 555
Výsledky v kontextu
RECALL
PRECISION
Bůh
Náhoda
ALPHA
19
Jak se dívá na svět Bůh
Šárka, 26Tomáš, 25
Ž, 28
M, 29
20
Jak to vidí data scientista
2
0
Když data scientista modeluje celý svět
RECALL
PRECISION
ALPHA*
ALPHA
SNA
› Určení důležitosti prvku v grafu
– Degree centrality (počet společných kontaktů)
– Closeness
– Betweenness
– Dispersion
http://chanchungweitommy.blogspot.cz/2012/03/sharing-on-social-network-
analysis.html
Domácnosti mají větší počet společných kontaktů
DOMÁCNOSTI
OSTATNÍ
NEMAJÍ
ŽADNÝ
SPOLEČNÝ KONTAKT
MAJÍ
VŠECHNY
KONTAKTY SPOLEČNÉ
Když víme něco struktuře grafu
RECALL
PRECISION
BETA
ALPHA*
ALPHA
Svět je pro nás pořád příliš komplexní
Musíme být méně ambiciózní
Jak často domácnosti bývají spolu o víkendech?
SKORO
NEBÝVAJÍ
BÝVAJÍ
POŘÁD
DOMÁCNOSTI
OSTATNÍ
Když dáme do modelu všechno co máme
RECALL
PRECISION
BETA
ALPHA*
ALPHA
GAMMA
Máme šum v trénovací množině
› Alespoň 15 % rodin nebylo spolu žádný víkend za prosinec 2017:
– Sourozenci
– Rozvod
– Chyby párování
› Zdroje chyb:
– Nejlepší kamarád
– Rodinné byty
– Děti
– Vice SIM
› Hodně dat ne znamená hodně informací!
Kam dál?
› Získání bohatší trénovací množiny
› Sjednocení zákazníků s dvěma SIM
› Další datové zdroje
Technologický koutek
NetworkX
pandas matplotlib
seaborn
numpy
scikit-learn

More Related Content

More from Profinit

More from Profinit (20)

Software systems modernisation
Software systems modernisationSoftware systems modernisation
Software systems modernisation
 
Odborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum MobileOdborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum Mobile
 
Data Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí clouduData Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí cloudu
 
Detekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přáteléDetekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přátelé
 
Výsledky backtestu propensitního modelu
Výsledky backtestu propensitního modeluVýsledky backtestu propensitního modelu
Výsledky backtestu propensitního modelu
 
Propensitní modelování
Propensitní modelováníPropensitní modelování
Propensitní modelování
 
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
 
Profinit webinar: Instalment Detector
Profinit webinar: Instalment DetectorProfinit webinar: Instalment Detector
Profinit webinar: Instalment Detector
 
Profinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publish
 
2019 09-23-snidane qa-public
2019 09-23-snidane qa-public2019 09-23-snidane qa-public
2019 09-23-snidane qa-public
 
2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full
 
2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne
 
Matedatový sklad
Matedatový skladMatedatový sklad
Matedatový sklad
 
Projekt Bitcoinová burza Coinmate
Projekt Bitcoinová burza CoinmateProjekt Bitcoinová burza Coinmate
Projekt Bitcoinová burza Coinmate
 
Projekt Edenred Cafeteria
Projekt Edenred CafeteriaProjekt Edenred Cafeteria
Projekt Edenred Cafeteria
 
20180321 profinit zpracovani velkych_dat_v_praxi
20180321 profinit zpracovani velkych_dat_v_praxi20180321 profinit zpracovani velkych_dat_v_praxi
20180321 profinit zpracovani velkych_dat_v_praxi
 
20180201 2 salary detector – detekce mzdovych interakci v bance
20180201 2 salary detector – detekce mzdovych interakci v bance20180201 2 salary detector – detekce mzdovych interakci v bance
20180201 2 salary detector – detekce mzdovych interakci v bance
 
20180201 1 big data jako nastroj pro hluboka transakcní mining
20180201 1 big data jako nastroj pro hluboka transakcní mining20180201 1 big data jako nastroj pro hluboka transakcní mining
20180201 1 big data jako nastroj pro hluboka transakcní mining
 
20180201 4 optimalizace_urokove_sazby
20180201 4 optimalizace_urokove_sazby20180201 4 optimalizace_urokove_sazby
20180201 4 optimalizace_urokove_sazby
 
Profinit snídaně datová_architektura_20171017_public
Profinit snídaně datová_architektura_20171017_publicProfinit snídaně datová_architektura_20171017_public
Profinit snídaně datová_architektura_20171017_public
 

20180201 3 detekce domácnosti v telekomunikacich