Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20180201 3 detekce domácnosti v telekomunikacich

149 views

Published on

Prezentace pracovní snídaně s názvem „Big data – jak z nich těžit informace“. Model identifikace „domácnosti“ v datech mobilního operátora.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

20180201 3 detekce domácnosti v telekomunikacich

  1. 1. Sergii Stamenov 1. února 2018 Detekce domácností v telekomunikacích
  2. 2. Data › CRM (individuální zákazníci) – jméno, příjmení, věk, pohlaví, fakturační adresa › Volání a SMS – 2 měsíce – kdo, komu, kdy, kde, jak dlouho – cca 200 GB › Poloha – 1 měsíc – kdo, kdy, kde – cca 500 GB
  3. 3. Trénovací množina 3 Začneme s daty ze CRM, která obsahují jméno, příjmení, pohlaví, věk a kontaktní adresu
  4. 4. Trénovací množina 4 Spojíme zákazníky na stejné kontaktní adrese se stejným příjmením
  5. 5. Trénovací množina 5 Spojíme zákazníky na stejné kontaktní adrese se stejným příjmením Omezíme se na zákazníky opačného pohlaví
  6. 6. 6 Trénovací množina 6 Spojíme zákazníky na stejné kontaktní adrese se stejným příjmením Omezíme se na zákazníky opačného pohlaví Věkový rozdíl mezi zákazníky <= 15 let
  7. 7. 7 Kontrolní množina 7 Šárka, 26Tomáš, 25 Ž, 28 M, 50 M, 29
  8. 8. 8 Kontrolní množina Šárka, 26Tomáš, 25 M, 50 M, 29 Omezíme se na zákazníky opačného pohlaví
  9. 9. 9 Kontrolní množina 9 Šárka, 26Tomáš, 25 M, 29 Omezíme se na zákazníky opačného pohlaví Věkový rozdíl mezi zákazníky <= 15 let
  10. 10. Domácnosti mezi sebou komunikují víc ODCHOZÍ VOLANÍ PŘÍCHOZÍ VOLANÍ ODCHOZÍ SMS PŘÍCHOZÍ SMS VOLÁM JENOM MANŽELCE VŮBEC NEVOLÁM MANŽELCE DOMÁCNOSTI OSTATNÍ
  11. 11. Domácnosti posílají kratší SMS DELŠÍ SMS KRATŠÍ SMS ODCHOZÍ PŘÍCHOZÍ DOMÁCNOSTI OSTATNÍ
  12. 12. Domácnosti mají dlouhodobý vztah DOMÁCNOSTI OSTATNÍ POČETDNŮ
  13. 13. Výsledky modelování Predikce jiny rodina Realita jiny 5000 123 rodina 150 555 Predikce jiný vztah rodina Realita jiný vztah 5000 123 rodina 150 555
  14. 14. Výsledky modelování Predikce jiny rodina Realita jiny 5000 123 rodina 150 555 𝑃𝑟𝑒𝑠𝑛𝑜𝑠𝑡 = 555 555 + 123 = 0.81 Predikce jiný vztah rodina Realita jiný vztah 5000 123 rodina 150 555
  15. 15. Výsledky modelování Predikce jiný vztah rodina Realita jiný vztah 5000 123 rodina 150 555 Falešný poplach když já a můj kamarád budeme označeni jako pár
  16. 16. Výsledky modelování Predikce jiný vztah rodina Realita jiný vztah 5000 123 rodina 150 555 𝑅𝑒𝑐𝑎𝑙𝑙 = 555 555 + 150 = 0.78
  17. 17. Výsledky modelování Predikce jiny rodina Realita jiny 5000 123 rodina 150 555 Ztracená příležitost Když neoslovím nějakou rodinu Predikce jiný vztah rodina Realita jiný vztah 5000 123 rodina 150 555
  18. 18. Výsledky v kontextu RECALL PRECISION Bůh Náhoda ALPHA
  19. 19. 19 Jak se dívá na svět Bůh Šárka, 26Tomáš, 25 Ž, 28 M, 29
  20. 20. 20 Jak to vidí data scientista 2 0
  21. 21. Když data scientista modeluje celý svět RECALL PRECISION ALPHA* ALPHA
  22. 22. SNA › Určení důležitosti prvku v grafu – Degree centrality (počet společných kontaktů) – Closeness – Betweenness – Dispersion http://chanchungweitommy.blogspot.cz/2012/03/sharing-on-social-network- analysis.html
  23. 23. Domácnosti mají větší počet společných kontaktů DOMÁCNOSTI OSTATNÍ NEMAJÍ ŽADNÝ SPOLEČNÝ KONTAKT MAJÍ VŠECHNY KONTAKTY SPOLEČNÉ
  24. 24. Když víme něco struktuře grafu RECALL PRECISION BETA ALPHA* ALPHA
  25. 25. Svět je pro nás pořád příliš komplexní
  26. 26. Musíme být méně ambiciózní
  27. 27. Jak často domácnosti bývají spolu o víkendech? SKORO NEBÝVAJÍ BÝVAJÍ POŘÁD DOMÁCNOSTI OSTATNÍ
  28. 28. Když dáme do modelu všechno co máme RECALL PRECISION BETA ALPHA* ALPHA GAMMA
  29. 29. Máme šum v trénovací množině › Alespoň 15 % rodin nebylo spolu žádný víkend za prosinec 2017: – Sourozenci – Rozvod – Chyby párování › Zdroje chyb: – Nejlepší kamarád – Rodinné byty – Děti – Vice SIM › Hodně dat ne znamená hodně informací!
  30. 30. Kam dál? › Získání bohatší trénovací množiny › Sjednocení zákazníků s dvěma SIM › Další datové zdroje
  31. 31. Technologický koutek NetworkX pandas matplotlib seaborn numpy scikit-learn

×