Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Предсказание оттока игроков из World of Tanks

Одна из наиболее часто возникающих задач в бизнес-аналитике для компаний — это предсказание оттока клиентов. Ведь если заранее знать, что клиент собирается уйти к конкуренту, его можно попытаться остановить. Задача будет рассмотрена на примере прогнозирования оттока игроков из World of Tanks.

 • Login to see the comments

Предсказание оттока игроков из World of Tanks

 1. 1. Ïðåäñêàçàíèå îòòîêà èãðîêîâ èç World of Tanks Èëüÿ Òðîôèìîâ, ßíäåêñ 24.10.2015 Ìàëûé ØÀÄ
 2. 2. World of Tanks Èíôîðìàöèÿ îá èãðå: ðàçðàáîòàíà áåëîðóññêîé ñòóäèåé WarGaming ñâîáîäíàÿ (free-to-play) ìíîãîïîëüçîâàòåëüñêàÿ îíëàéí-èãðà ïëàòíûå ýëåìåíòû: çîëîòî ìîæåò áûòü êóïëåíî çà ðåàëüíûå äåíüãè, äàåò íåáîëüøîå ïðåèìóùåñòâî â èãðå êîëè÷åñòâî àêêàóíòîâ > 100 ìëí 19 ÿíâàðÿ 2014ã. áûëî îíëàéí 1 114 337 èãðîêîâ http://ru.wargaming.net
 3. 3. ×òî òàêîå îòòîê? Îòòîê êëèåíòîâ (churn) ìîæåò áûòü â ëþáîì áèçíåñå: Áàíêè Îïåðàòîðû ñâÿçè Ïðîâàéäåðû èíòåðíåòà Ïðîâàéäåðû êàáåëüíîãî ÒÂ Ñòðàõîâûå êîìïàíèè Îíëàéí èãðû è ò. ä.
 4. 4. ×òî òàêîå îòòîê? Îòòîê êëèåíòîâ (churn) ìîæåò áûòü â ëþáîì áèçíåñå: Áàíêè Îïåðàòîðû ñâÿçè Ïðîâàéäåðû èíòåðíåòà Ïðîâàéäåðû êàáåëüíîãî Ò Ñòðàõîâûå êîìïàíèè Îíëàéí èãðû è ò. ä. Åñòü äâå îñíîâíûå çàäà÷è: Ïðåäñêàçàíèå îòòîêà Ïðåäîòâðàùåíèå îòòîêà
 5. 5. Äîëÿ ñîòîâûõ îïåðàòîðîâ â ÑØÀ http://www.statista.com/statistics/199359/ market-share-of-wireless-carriers-in-the-us-by-subscriptions/
 6. 6. Îòòîê êëèåíòîâ
 7. 7. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå?
 8. 8. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå? ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ?
 9. 9. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå? ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ? ÷òî ëå÷åíèå áóäåò ýôôåêòèâíûì?
 10. 10. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå? ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ? ÷òî ëå÷åíèå áóäåò ýôôåêòèâíûì? ÷òî ïàðåíü è äåâóøêà ñîñòàâÿò õîðîøóþ ïàðó?
 11. 11. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå? ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ? ÷òî ëå÷åíèå áóäåò ýôôåêòèâíûì? ÷òî ïàðåíü è äåâóøêà ñîñòàâÿò õîðîøóþ ïàðó? êóðñ àêöèé íà ñëåäóþùåé íåäåëå?
 12. 12. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå? ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ? ÷òî ëå÷åíèå áóäåò ýôôåêòèâíûì? ÷òî ïàðåíü è äåâóøêà ñîñòàâÿò õîðîøóþ ïàðó? êóðñ àêöèé íà ñëåäóþùåé íåäåëå? ÷òî èãðîê ïåðåñòàíåò èãðàòü â îíëàéí-èãðó?
 13. 13. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå? ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ? ÷òî ëå÷åíèå áóäåò ýôôåêòèâíûì? ÷òî ïàðåíü è äåâóøêà ñîñòàâÿò õîðîøóþ ïàðó? êóðñ àêöèé íà ñëåäóþùåé íåäåëå? ÷òî èãðîê ïåðåñòàíåò èãðàòü â îíëàéí-èãðó? Êàê ðàñïîçíàòü: ÷åëîâåêà íà ôîòî?
 14. 14. Ïðåäñêàçàíèÿ ... Êàê ïðåäñêàçàòü: ÷òî ÷åëîâåê êóïèò òîâàð â èíòåðíåò-ìàãàçèíå? ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ? ÷òî ëå÷åíèå áóäåò ýôôåêòèâíûì? ÷òî ïàðåíü è äåâóøêà ñîñòàâÿò õîðîøóþ ïàðó? êóðñ àêöèé íà ñëåäóþùåé íåäåëå? ÷òî èãðîê ïåðåñòàíåò èãðàòü â îíëàéí-èãðó? Êàê ðàñïîçíàòü: ÷åëîâåêà íà ôîòî? ðóêîïèñíûé òåêñò?
 15. 15. Ìàøèííîå îáó÷åíèå Ïûòàåìñÿ íàó÷èòü ìàøèíó (êîìïüþòåð / êëàñòåð êîìïüþòåðîâ) ðåøàòü çàäà÷è, êîòîðûå óìååò ëåãêî äåëàòü ÷åëîâåê (ðàñïîçíàòü ÷åëîâåêà íà ôîòî) ÷åëîâåê íå óìååò äåëàòü (ïðåäñêàçàòü, ÷òî òâèò ïîëó÷èò ìíîãî ðåòâèòîâ) Ëåêöèÿ ïðî ìàøèííîå îáó÷åíèå â ìàëîì ØÀÄå: http://habrahabr.ru/company/yandex/blog/206058/
 16. 16. Ìàøèííîå îáó÷åíèå Ìàøèíà îáó÷àåòñÿ íà ïðèìåðàõ.
 17. 17. Ìàøèííîå îáó÷åíèå Ìàøèíà îáó÷àåòñÿ íà ïðèìåðàõ. Îáó÷àþùàÿ âûáîðêà: âõîäíûå äàííûå, îòâåò âõîäíûå äàííûå, îòâåò âõîäíûå äàííûå, îòâåò ... âõîäíûå äàííûå, îòâåò
 18. 18. Ìàøèííîå îáó÷åíèå âõîäíûå äàííûå = x∈ X - îáû÷íî âåêòîð ÷èñåë îòâåò = y ∈ Y Y - êîíå÷íîå ìíîæåñòâî - çàäà÷à êëàññèôèêàöèè Y = R - çàäà÷à ðåãðåññèè Íóæíî ïî îáó÷àþùåé âûáîðêå ïîñòðîèòü ôóíêöèþ f : X → Y òàê, ÷òîáû êîëè÷åñòâî îøèáîê íà îáó÷àþùåé âûáîðêå áûëî ìèíèìàëüíûì
 19. 19. Ïðåäñêàçàíèå îòòîêà èãðîêîâ Ось времени Текущий момент 1 месяц: проверка оттока 6 месяцев: факторы игроков
 20. 20. Ïðåäñêàçàíèå îòòîêà èãðîêîâ Âõîäíûå äàííûå: êîëè÷åñòâî óíè÷òîæåííûõ òàíêîâ êîëè÷åñòâî áèòâ êîëè÷åñòâî áèòâ â êëàíå äîëÿ ïîáåä ñâîáîäíûé îïûò çîëîòî ïðåìèóì àêêàóíò èëè íåò è ò.ï.
 21. 21. Ïðåäñêàçàíèå îòòîêà èãðîêîâ Âõîäíûå äàííûå: êîëè÷åñòâî óíè÷òîæåííûõ òàíêîâ êîëè÷åñòâî áèòâ êîëè÷åñòâî áèòâ â êëàíå äîëÿ ïîáåä ñâîáîäíûé îïûò çîëîòî ïðåìèóì àêêàóíò èëè íåò è ò.ï. Íà ïàðàìåòðû ìîæíî ñìîòðåòü ñ ãëóáèíîé äî 6 ìåñÿöåâ (24 íåäåëè). Âñåãî 501 ïàðàìåòð
 22. 22. Ïðåäñêàçàíèå îòòîêà èãðîêîâ Âõîäíûå äàííûå: êîëè÷åñòâî óíè÷òîæåííûõ òàíêîâ êîëè÷åñòâî áèòâ êîëè÷åñòâî áèòâ â êëàíå äîëÿ ïîáåä ñâîáîäíûé îïûò çîëîòî ïðåìèóì àêêàóíò èëè íåò è ò.ï. Íà ïàðàìåòðû ìîæíî ñìîòðåòü ñ ãëóáèíîé äî 6 ìåñÿöåâ (24 íåäåëè). Âñåãî 501 ïàðàìåòð Îòâåò: Óøåë èãðîê èëè íå óøåë (+1 èëè -1) ¾Óøåë¿ îçíà÷àåò, ÷òî çà îäèí ìåñÿö íå áûëî íè îäíîãî áîÿ
 23. 23. Îáó÷àþùàÿ âûáîðêà
 24. 24. Îöåíêà êà÷åñòâà Îøèáêà êëàññèôèêàöèè Error = n i=1 Errori Errori = 1, åñëè f (xi ) = yi 0, èíà÷å
 25. 25. Îöåíêà êà÷åñòâà Îøèáêà êëàññèôèêàöèè Error = n i=1 Errori Errori = 1, åñëè f (xi ) = yi 0, èíà÷å Íà ñàìîì äåëå, íå ïðîáëåìà ïîñòðîèòü ôóíêöèþ f (x) òàê ÷òîáû Error = 0.
 26. 26. Îöåíêà êà÷åñòâà Îøèáêà êëàññèôèêàöèè Error = n i=1 Errori Errori = 1, åñëè f (xi ) = yi 0, èíà÷å Íà ñàìîì äåëå, íå ïðîáëåìà ïîñòðîèòü ôóíêöèþ f (x) òàê ÷òîáû Error = 0. Ìåòîä áëèæàéøåãî ñîñåäà. Àëãîðèòì âû÷èñëåíèÿ ôóíêöèè f (x). Âõîä: x. Íàéòè òî÷êó xi èç îáó÷àþùåé âûáîðêå, áëèæàéøóþ ê x Âåðíóòü yi .
 27. 27. Îöåíêà êà÷åñòâà Îøèáêà êëàññèôèêàöèè Error = n i=1 Errori Errori = 1, åñëè f (xi ) = yi 0, èíà÷å Íà ñàìîì äåëå, íå ïðîáëåìà ïîñòðîèòü ôóíêöèþ f (x) òàê ÷òîáû Error = 0. Ìåòîä áëèæàéøåãî ñîñåäà. Àëãîðèòì âû÷èñëåíèÿ ôóíêöèè f (x). Âõîä: x. Íàéòè òî÷êó xi èç îáó÷àþùåé âûáîðêå, áëèæàéøóþ ê x Âåðíóòü yi . Åñëè íåò òî÷åê i, j, ó êîòîðûõ xi = xj è yi = yj , òî Error = 0.
 28. 28. Îáó÷åíèå è òåñò Íóæíî ðàçäåëèòü äàííûå íà 2 ÷àñòè: Îáó÷àþùàÿ âûáîðêà Òåñòîâàÿ âûáîðêà Ïî îáó÷àþùåé âûáîðêå ñòðîèòñÿ ôóíêöèÿ f (x), à íà òåñòîâîé âûáîðêå íóæíî ïðîâåðÿòü êà÷åñòâî êëàññèôèêàöèè.  çàäà÷å ïðåäñêàçàíèÿ îòòîêà áûëè äàííûå ïî 50 òûñ. èãðîêîâ. Ýòî èãðîêè, ñûãðàâøèå ìèíèìóì 500 áèòâ çà ïîñëåäíèå 3 ìåñÿöà, è ó êîòîðûõ áûëà õîòÿ áû îäíà áèòâà çà ïîñëåäíþþ íåäåëþ. ß ðàçäåëèë èõ íà äâå ÷àñòè: 33 òûñ - îáó÷åíèå 17 òûñ - òåñò
 29. 29. Äåðåâî ðåøåíèé
 30. 30. Äåðåâî ðåøåíèé КОРЕНЬ УЗЕЛ УЗЕЛ УЗЕЛ ЛИСТ ЛИСТ ЛИСТ ЛИСТ
 31. 31. Äåðåâî ðåøåíèé Êëàññèôèêàöèÿ e-mail: ñïàì / íå ñïàì. 9.2 Tree-Based Methods 315 600/1536 280/1177 180/1065 80/861 80/652 77/423 20/238 19/236 1/2 57/185 48/113 37/101 1/12 9/72 3/229 0/209 100/204 36/123 16/94 14/89 3/5 9/29 16/81 9/112 6/109 0/3 48/359 26/337 19/110 18/109 0/1 7/227 0/22 spam spam spam spam spam spam spam spam spam spam spam spam email email email email email email email email email email email email email email email email email email email email email ch$<0.0555 remove<0.06 ch!<0.191 george<0.005 hp<0.03 CAPMAX<10.5 receive<0.125 edu<0.045 our<1.2 CAPAVE<2.7505 free<0.065 business<0.145 george<0.15 hp<0.405 CAPAVE<2.907 1999<0.58 ch$>0.0555 remove>0.06 ch!>0.191 george>0.005 hp>0.03 CAPMAX>10.5 receive>0.125 edu>0.045 our>1.2 CAPAVE>2.7505 free>0.065 business>0.145 george>0.15 hp>0.405 CAPAVE>2.907 1999>0.58 FIGURE 9.5. The pruned tree for the spam example. The split variables are shown in blue on the branches, and the classification is shown in every node.The numbers under the terminal nodes indicate misclassification rates on the test data. Friedman, Hastie, Tibshirani. The Elements of Statistical Learning Fig. 9.5. E-mail classication.
 32. 32. Äåðåâî ðåøåíèé: êàê ñòðîèòü? Ïðîöåäóðà LearnID3. Âõîä: îáó÷àþùàÿ âûáîðêà U - ïàðû (x, y). 1 åñëè âñå îáúåêòû U ëåæàò â îäíîì êëàññå c, òî 2 âåðíóòü íîâûé ëèñò v, cv = c 3 íàéòè óñëîâèå ðàçáèåíèÿ xk a äàþùåå ìèíèìàëüíóþ îøèáêó 4 ðàçáèòü âûáîðêó U íà äâå íåïåðåñåêàþùèåñÿ ÷àñòè U = U0 U1 ïî óñëîâèþ xk a 5 åñëè U0 = ∅ èëè U1 = ∅ 6 âåðíóòü íîâûé ëèñò v, cv - ìàæîðèòàðíûé êëàññ â U 7 ñîçäàòü íîâóþ âíóòðåííþþ âåðøèíó v, ïðîâåðÿþùóþ óñëîâèå xk a 8 ïîñòðîèòü ëåâîå ïîääåðåâî Lv = LearnID3(U0) 9 ïîñòðîèòü ïðàâîå ïîääåðåâî Rv = LearnID3(U1) Âåðíóòü v
 33. 33. Äåðåâî ðåøåíèé: âûáîð ðàçáèåíèÿ Îøèáêó ìîæíî ñ÷èòàòü ïî ðàçíîìó: Îøèáêà êëàññèôèêàöèè Q(p) = 1− max(p, 1− p) Èíäåêñ Äæèíè Q(p) = 2p(1− p) Êðîññ-ýíòðîïèÿ Q(p) = −p logp − (1− p) log(1− p) Íóæíî âûáðàòü ðàçáèåíèå xk a êîòîðîå äàåò ìèíèìàëüíóþ NLQ(pL) + NRQ(pR) ãäå NL, NR - êîëè÷åñòâî îáúåêòîâ, ïîïàäàþùèõ â ëåâîå è ïðàâîå ïîääåðåâî. pL, pR - äîëè 1-ãî êëàññà â ëåâîì è ïðàâîì ïîääåðåâå.
 34. 34. ÌàòðèêñÍåò Íà ñàìîì äåëå ÿ èñïîëüçîâàë ÌàòðèêñÍåò... Ýòî êîìïîçèöèÿ ∼ 1000 äåðåâüåâ. Êàæäîå äåðåâî ïîäáèðàåòñÿ òàê, ÷òîáû èñïðàâëÿòü îøèáêè ïðåäûäóùèõ. Íà âûõîäå ÌàòðèêñÍåò âûäàåò âåðîÿòíîñòü ïðèíàäëåæíîñòè ê êëàññó
 35. 35. Êàê èçìåðèòü êà÷åñòâî ïðåäñêàçàíèÿ îòòîêà? Íåëüçÿ ïîñòðîèòü íè îäíîãî äåðåâà, íè êîìïîçèöèè äåðåâüåâ òàê, ÷òî èäåàëüíî îïðåäåëÿòü ¾óéäåò¿ èãðîê èëè íå ¾óéäåò¿. Îáû÷íî ¾óõîäÿùèõ¿ èãðîêîâ ìàëî, ïîðÿäêà 1%. Ïîýòîìó èçìåðÿþò íå îøèáêó êëàññèôèêàöèè, à óñèëåíèå (lift). Àëãîðèòì âû÷èñëåíèÿ óñèëåíèÿ (lift) íà X% Ïóñòü a - äîëÿ ¾óøåäøèõ¿ èãðîêîâ âî âñåé âûáîðêå. Âû÷èñëèì âåðîÿòíîñòü ¾óõîäà¿ ñ ïîìîùüþ êëàññèôèêàòîðà, íàïðèìåð ÌàòðèêñÍåò. Îòñîðòèðóåì èãðîêîâ ïî óáûâàíèþ âåðîÿòíîñòè Ïóñòü b - äîëÿ ¾óøåäøèõ¿ ñðåäè X% ñ ìàêñ. ïðîãíîçèðóåìîé âåðîÿòíîñòüþ Âåðíóòü: Óñèëåíèå = b a Îáû÷íî ñìîòðÿò íà óñèëåíèå íà 10%.  ïðîåêòå äëÿ World of Tanks ó ìåíÿ áûëî óñèëåíèå 6.09.
 36. 36. Êàê ïðåäîòâðàòèòü óõîä Äëÿ ïðåäîòâðàùåíèÿ óõîäà êëèåíòîâ íóæíî: Îáó÷èòü êëàññèôèêàòîð, ïðåäñêàçûâàþùèé óõîä êëèåíòà Âûáðàòü X% êëèåíòîâ è: ñäåëàòü èì âíåçàïíûé ïîäàðîê ïðåäëîæèòü ñêèäêó âûáðàòü êàíàë ñâÿçè (òåëåôîí, email, ñîîáùåíèå â èãðå) âûáðàòü íàèëó÷øåå âðåìÿ äëÿ ñâÿçè
 37. 37. Êàê ïðåäîòâðàòèòü óõîä Äëÿ ïðåäîòâðàùåíèÿ óõîäà êëèåíòîâ íóæíî: Îáó÷èòü êëàññèôèêàòîð, ïðåäñêàçûâàþùèé óõîä êëèåíòà Âûáðàòü X% êëèåíòîâ è: ñäåëàòü èì âíåçàïíûé ïîäàðîê ïðåäëîæèòü ñêèäêó âûáðàòü êàíàë ñâÿçè (òåëåôîí, email, ñîîáùåíèå â èãðå) âûáðàòü íàèëó÷øåå âðåìÿ äëÿ ñâÿçè Äëÿ ðåøåíèÿ ýòèõ çàäà÷ òîæå ìîæíî èñïîëüçîâàòü ìàøèííîå îáó÷åíèå =)
 38. 38. Ñïèñîê ëèòåðàòóðû 1 Ïðåññ-ðåëèç ïðî ïðîåêò ñ World of Tanks: https://company.yandex.com/press_center/blog/ entry.xml?pid=68, https://yadi.sk/i/emW5tZ3KeyM3i 2 Ìàøèííîå îáó÷åíèå: http://habrahabr.ru/company/yandex/blog/206058/ 3 Îòòîê èãðîêîâ â îíëàéí èãðàõ: http://habrahabr.ru/post/134163/, http://habrahabr.ru/post/149405/ 4 ÌàòðèêñÍåò: http://download.yandex.ru/company/experience/ searchconf/Searchconf_Algoritm_MatrixNet_Gulin.pdf

×