© CGI Group Inc. CONFIDENTIAL
Machine learning a data mobilních operátorů
Lukáš Drápal (lukas.drapal@cgi.com)
Duben 2014
CGI je globální zajišťovatel komplexních IT služeb a
služeb v oblasti obchodních procesů
4,500 klientů
z celého světa
68,000 zaměstnanců,
z toho75% akcionářů
Špičkový business a
IT consulting
400 kanceláří,
40 zemí
Systémová integrace,
outsourcing
IT and obchodních procesů
9/10
Skóre spokojenosti klientů za
posledních 10 let
2
• Spojení CGI a Logica v roce 2013
• 5. Největší nezávislá IT a BPS firma
na světě
Lokální CGI data science tým
• Seniorní konzultanti s více než 10 letou znalostí sektoru
• Noví talenti s vystudovanou datovou vědou
• Produktová nezávislost
• Prohlubování znalostí v mezinárodních soutěžích
• Kaggle.com: Allstate Purchase Prediction Challenge
• Vyhráli jsme mezi více než 1500 týmy z celého světa
• Hlavní oblasti: retail, banking, telco
3
Data mobilních operátorů
4
• Nesou významnou informaci o uživateli SIM karet
• Lidi, se kterými je uživatel v kontaktu
• Kde se pohybuje
• Mohou být využita ke zkvalitnění služeb a získání
konkurenční výhody
Co máme za data?
• CDR data o hovorech a SMS zprávách
• Číslo volaného a příjemce
• Datum a čas
• Typ služby
• Délka
• ID sítě
• Případně: Lokace, Prohlížená webová stránka, Cena
• Další datové zdroje:
• Subscriber data (Active/deactivated, Network Type,
Phone model)
• CRM systémy
Zpracování dat
• Surová CDR data jsou zpracována, aby mohl být využit
machine learningový algoritmus
• Agregace
• Síťová analýza (social network analysis)
6
Využití dat: příklady z projektů
• Síťová analýza (Social network analysis)
• Demografický profiling
7
No. 8
Kdo ovlivňuje chování ostatních zákazníků?
Vůdce
Vlivný zákazník
Následovníci
Síťová analýza (Social network analysis)
• Detekce komunit
• Výpočet různých síťových metrik
• Zjištění vlivných uživatelů
9
Ukázka hodnoty pro středoevropského operátora
• Detekce komunit
• Odhalení vlivných zákazníků
• Vlivní zákazníci se chovají jinak v retenčním procesu
• Výsledek: doporučení jiného retenčního postupu u různých
skupin zákazníků
0
10 1
0010101010101
1001001010010
1 0101011010
010 100 0 0
1
1
1
0
0010010010010
10
0001011110010
001
0
1
0
00101010101
0 001
01010010111
10
1
1
0
0
00 0
1
0
1
0100101010101
01
0101010101010
0
1
1
0111001010
Demografický profiling: výzvy
KREDIT – absence datPAUŠÁL
0
1
1
1 0
1
0
1
• Anonymní uživatelé• Hodně zákaznických dat
Demografické modelování
• Cíl: předpovědět věk a pohlaví zákazníků s kreditem
• Lepší cílení nabídek
Predikce pohlaví pro telekomunikačního
operátora
• Predikce na základě CDR dat
• Data o zákaznících s paušálem (pohlaví známe) i s kreditem
(pohlaví neznáme)
Výsledek
• Z 50% na 80% přesnost jen na základě CDR dat
Použité proměnné
• Průměrná doba hovoru
• Počet sms a volání mužům / ženám
• Pohlaví nejčastěji volané osoby
Chytrá síťová proměnná (1/2)
?
Chytrá síťová proměnná (2/2)
?
Chytrá proměnná: dekódováno
?
Shrnutí
• CDR data jsou bohatá, potřebují správný preprocessing
• Síťová analýza umožňuje odhalit důležité informace
o zákaznících a vztazích mezi nimi
Q&A
Napište mi: lukas.drapal@cgi.com

Machine learning a data mobilních operátorů - Lukáš Drápal (DATA restart 2015)

  • 1.
    © CGI GroupInc. CONFIDENTIAL Machine learning a data mobilních operátorů Lukáš Drápal (lukas.drapal@cgi.com) Duben 2014
  • 2.
    CGI je globálnízajišťovatel komplexních IT služeb a služeb v oblasti obchodních procesů 4,500 klientů z celého světa 68,000 zaměstnanců, z toho75% akcionářů Špičkový business a IT consulting 400 kanceláří, 40 zemí Systémová integrace, outsourcing IT and obchodních procesů 9/10 Skóre spokojenosti klientů za posledních 10 let 2 • Spojení CGI a Logica v roce 2013 • 5. Největší nezávislá IT a BPS firma na světě
  • 3.
    Lokální CGI datascience tým • Seniorní konzultanti s více než 10 letou znalostí sektoru • Noví talenti s vystudovanou datovou vědou • Produktová nezávislost • Prohlubování znalostí v mezinárodních soutěžích • Kaggle.com: Allstate Purchase Prediction Challenge • Vyhráli jsme mezi více než 1500 týmy z celého světa • Hlavní oblasti: retail, banking, telco 3
  • 4.
    Data mobilních operátorů 4 •Nesou významnou informaci o uživateli SIM karet • Lidi, se kterými je uživatel v kontaktu • Kde se pohybuje • Mohou být využita ke zkvalitnění služeb a získání konkurenční výhody
  • 5.
    Co máme zadata? • CDR data o hovorech a SMS zprávách • Číslo volaného a příjemce • Datum a čas • Typ služby • Délka • ID sítě • Případně: Lokace, Prohlížená webová stránka, Cena • Další datové zdroje: • Subscriber data (Active/deactivated, Network Type, Phone model) • CRM systémy
  • 6.
    Zpracování dat • SurováCDR data jsou zpracována, aby mohl být využit machine learningový algoritmus • Agregace • Síťová analýza (social network analysis) 6
  • 7.
    Využití dat: příkladyz projektů • Síťová analýza (Social network analysis) • Demografický profiling 7
  • 8.
    No. 8 Kdo ovlivňujechování ostatních zákazníků? Vůdce Vlivný zákazník Následovníci
  • 9.
    Síťová analýza (Socialnetwork analysis) • Detekce komunit • Výpočet různých síťových metrik • Zjištění vlivných uživatelů 9
  • 10.
    Ukázka hodnoty prostředoevropského operátora • Detekce komunit • Odhalení vlivných zákazníků • Vlivní zákazníci se chovají jinak v retenčním procesu • Výsledek: doporučení jiného retenčního postupu u různých skupin zákazníků
  • 11.
    0 10 1 0010101010101 1001001010010 1 0101011010 010100 0 0 1 1 1 0 0010010010010 10 0001011110010 001 0 1 0 00101010101 0 001 01010010111 10 1 1 0 0 00 0 1 0 1 0100101010101 01 0101010101010 0 1 1 0111001010 Demografický profiling: výzvy KREDIT – absence datPAUŠÁL 0 1 1 1 0 1 0 1 • Anonymní uživatelé• Hodně zákaznických dat
  • 12.
    Demografické modelování • Cíl:předpovědět věk a pohlaví zákazníků s kreditem • Lepší cílení nabídek
  • 13.
    Predikce pohlaví protelekomunikačního operátora • Predikce na základě CDR dat • Data o zákaznících s paušálem (pohlaví známe) i s kreditem (pohlaví neznáme)
  • 14.
    Výsledek • Z 50%na 80% přesnost jen na základě CDR dat
  • 15.
    Použité proměnné • Průměrnádoba hovoru • Počet sms a volání mužům / ženám • Pohlaví nejčastěji volané osoby
  • 16.
  • 17.
  • 18.
  • 19.
    Shrnutí • CDR datajsou bohatá, potřebují správný preprocessing • Síťová analýza umožňuje odhalit důležité informace o zákaznících a vztazích mezi nimi
  • 20.