Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」

7,062 views

Published on

In Soviet Russia,data understands you!

  • Be the first to comment

Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」

  1. 1. ソーシャルゲームでは、データがユーザーを理解する!~Cheap&agile data mining~久保 翔太
  2. 2. 自己紹介 Semi-supervised learningの研究  から逃げて引きこもったり 最近一部上場した森タワーの会社とか 昔一部上場してた元森タワーの会社とか  の下っ端プログラマ データを眺めるのが本業より楽しかったのでキャリアチェンジ  Chief data scentinst
  3. 3. 今日の話題 すごい技術の話、すごいモデルの話 一人部署でデータマイニングの業務を作った話 しません おもしろかったデータの話 安くて早いデータ発掘の話 します
  4. 4. データの特徴 全てプラットフォームのidに紐付いているので追跡可 能 データの組み合わせが多い(カラム数 * テーブル3桁 くらい) 全てチェックするのは無理 →特徴を競合よりたくさ ん見つけたら勝ち 量に関してはインフラの人が何とかしてくれているの で処理の面倒さでは余り変わらない。むしろ質(行動 データの記録量)
  5. 5. モンティ・ホール問題より役に立つ話
  6. 6.  塔を登るイベント 1階毎に扉が2~4個 扉の答は決まっているので答えを共有できる→一回目で間違える確率は?
  7. 7. 失敗確率がおかしい2択で70%も 母数の割に収束しなさすぎる間違えるのはおかしい
  8. 8. 正解番号と失敗率43210 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.81が答えの時だけ正解率が良い 1→1→1と3連続の時=連打で1から選んでいる
  9. 9. TL;DR選択肢がある時は片っ端から開ける次の階は前の階とは違う扉と考えるそれ役に立つの? 「ウザい」設計にしたり逆にチョロくしたり
  10. 10. 競争心のはなし
  11. 11. イベントにはランキングに応じて報酬が 30位ならめちゃ良い物 50位ならけっこう良い物 100位ならそこそこ良い物「イベントの報酬なんですが・・・どう思い ますか?」→どうって言われても・・・
  12. 12. 競争している場 所(ポイントが 跳ね上がってるpoint 0 50 100 150 200 250 300 350 400 450 500 rank 目的の順位に到達した後は 競争しなくなる
  13. 13. ランキングの最適化 50位で貰えてた物を100位でも貰えるようにするランク確定 ランク確定 消費 体力 競争 消費体力 競争 勝負しない 勝負しない 50人 100人
  14. 14. そこそこ成功
  15. 15. アーリーアダプターの話
  16. 16.  アプリBの事前登録(≒予約)ユーザーの半分が一年前のアプリAのユーザーと 被っていた appA appB
  17. 17. アーリーアダプターでした appA appB 重複ユーザーのうち25%がappAのリリース後5日以内に登録役に立つの?→リリース直後のユーザー数の見積りと初期ユーザーの目的
  18. 18. アジャイルな話
  19. 19. 基本無料のゲームは入会初日で「半分より多 い」割合が辞める。離脱、継続するファクターを意識して改善し 続ける必要がある継続する→DAU増える→イベントがにぎわう →売上増える→桶屋が儲かる
  20. 20. Id Page1のpv … Page255のpv 継続したか 123456 100 23 1 234567 21 2 0(overfitしまくりの)決定木 最初のボス倒したユーザーの80%が継続 ならボスを倒しやすくしてみよう
  21. 21. 対象ユーザーの継続率が80→60%に 逆に倒し辛くしたら?(実験中)
  22. 22. イテレーションが大事 効果測定 自明な結果問題定義 ファクターの発見 説明 施策適用 0.5h 6h 0.5h 1h データ収集 3day
  23. 23. アジャイルな話2
  24. 24. 課金率が高い新規入会者が入ってきた継続率も良い
  25. 25. Copyright©2011 givery, Inc. Allrights reserved. ダブルスコアで 初期カードにかわいい系を選択 かつ課金先のほとんどがガチャ
  26. 26. 施策 結果 二倍の反応率
  27. 27. 発見から施策まで:6時間
  28. 28. 人工人工知能によるパターン発見のはなし
  29. 29. Librato Metricsで捗る 自分以外数字をみてくれない  Cactiでグラフ描いた→失敗  Phpmyadminで自分で見て→失敗 Librato Metrics  APIに値投げるだけ  安い。1プロット$0.000002 !  パーマリンクも貼れる  スクリーンショットも貼れる  2010年代のオシャレっぽさ
  30. 30. 数えられるくらいの量なら人間にパターン発見やらせたほうが高性能
  31. 31. 飽きそうなユーザーをセグメント分けした話
  32. 32. 主成分分析Id 1月ガチャ課金 … 7月ガチャ課金 総額123456 100 23 200234567 21 2 50「飽きつつあるユーザー」「最近課金しつつあるユーザー」「コンスタント」などで説明できる主成分に
  33. 33.  [2012/07/05 17:34:17] 翔太 久保 [2012/07/05 17:34:20] 翔太 久保: に置きました [2012/07/05 17:34:51] 翔太 久保: god.txtとい うのが元のデータで [2012/07/05 17:35:15] 翔太 久保: プレイヤーid ガチャ12001を回した回数 ・・・・ 12006 合 計回数 というフォーマットになっています [2012/07/05 17:36:18] 翔太 久保: これを主成分 分析なる物にかけると、元のガチャ6種類+合計 の軸が 主成分なる謎の軸で表現できるように なります。これを図で示したのがpngの画像で す [2012/07/05 17:37:40] 翔太 久保: 例えば主成分 2は合計額が多くて、12001の回数が多くて、 他、特に12006が少ない人という意味なので、 人間の言葉で表すと「昔はよかった」と言えそ うです [2012/07/05 17:38:47] 翔太 久保: 右の表を見 て、昔は・・・のスコアが高い人は今日みた様 な、1月に課金しまくって合計額も多いけど、今 はやってない人の群になります。 [2012/07/05 17:39:05] 翔太 久保: ちなみに一番 スコア高いのは今日みた *****さんです [2012/07/05 17:39:08] 翔太 久保: ・・・という [2012/07/05 17:39:15] 翔太 久保: 説明下手なも ので・・ [2012/07/05 17:40:03] 翔太 久保: 図を見ると主 成分2と3の2軸を使うと3群くらいに分類できそ うな感じですよね。 [2012/07/05 17:41:14] 翔太 久保: なので主成分 2のスコアが高いユーザーを集めると「最近課金 してくれないユーザー群」 [2012/07/05 17:42:09] 翔太 久保: 主成分3は 「ここ数カ月でたくさん課金してくれるユー ザー群」になるので、さらに集計するなり直で カムバックメッセージ送るなり、でしょうか活 用するとしたら
  34. 34. 簡単な方法ならそれが一番 Facebookでデータサイエンティストとして働いている人の ブログより: Effectively answering questions is where technical skills become important. Its easy to get caught up in fancy algorithms and methods, but those approaches are usually premature optimizations. The best answers are 1) cheap and 2) easy to explain.
  35. 35. その他Apache pig+amazon EMRと10行のスクリ プトで一年分のログを100円で集計できた話相関ルールでキャラクター属性のカテゴラ イズシンプルなモデルでDAUを予測できた話チーターを検出した話

×