SlideShare a Scribd company logo
ソーシャルゲームでは、データが
ユーザーを理解する!
~Cheap&agile data mining~
久保 翔太
自己紹介

 Semi-supervised learningの研究
    から逃げて引きこもったり


 最近一部上場した森タワーの会社とか
 昔一部上場してた元森タワーの会社とか
    の下っ端プログラマ


 データを眺めるのが本業より楽しかったのでキャリアチェンジ
    Chief data scentinst
今日の話題


   すごい技術の話、すごいモデルの話
   一人部署でデータマイニングの業務を作った話
    しません
   おもしろかったデータの話
   安くて早いデータ発掘の話
    します
データの特徴

 全てプラットフォームのidに紐付いているので追跡可
  能
 データの組み合わせが多い(カラム数 * テーブル3桁
  くらい)
 全てチェックするのは無理 →特徴を競合よりたくさ
  ん見つけたら勝ち
 量に関してはインフラの人が何とかしてくれているの
  で処理の面倒さでは余り変わらない。むしろ質(行動
  データの記録量)
モンティ・ホール問題より役に立つ話
 塔を登るイベント
 1階毎に扉が2~4個
 扉の答は決まっているので答えを共有できる




→一回目で間違える確率は?
失敗確率がおかしい




2択で70%も     母数の割に収束しなさすぎる
間違えるのは
おかしい
正解番号と失敗率

4




3




2




1




0
    0   0.1   0.2   0.3   0.4   0.5       0.6   0.7   0.8




1が答えの時だけ正解率が良い                        1→1→1と3連続の時
=連打で1から選んでいる
TL;DR


選択肢がある時は片っ端から開ける
次の階は前の階とは違う扉と考える

それ役に立つの?
 「ウザい」設計にしたり逆にチョロくしたり
競争心のはなし
イベントにはランキングに応じて報酬が
 30位ならめちゃ良い物
 50位ならけっこう良い物
 100位ならそこそこ良い物
「イベントの報酬なんですが・・・どう思い
 ますか?」→どうって言われても・・・
競争している場
         所(ポイントが
         跳ね上がってる




point




    0     50   100   150   200   250    300   350   400   450   500

                                 rank


        目的の順位に到達した後は
        競争しなくなる
ランキングの最適化

  50位で貰えてた物を100位でも貰えるようにする



ランク確定                ランク確定

  消費
  体力    競争                   消費体力   競争


             勝負しない                  勝負しない
  50人                 100人
そこそこ成功
アーリーアダプターの話
 アプリBの事前登録(≒予約)ユーザーの半分が一年前のアプリAのユーザーと
  被っていた




     appA                appB
アーリーアダプターでした




     appA                appB




   重複ユーザーのうち25%がappAのリリース後5日以内に登録

役に立つの?→リリース直後のユーザー数の見積りと初期ユーザーの目的
アジャイルな話
基本無料のゲームは入会初日で「半分より多
 い」割合が辞める。
離脱、継続するファクターを意識して改善し
 続ける必要がある
継続する→DAU増える→イベントがにぎわう
 →売上増える→桶屋が儲かる
Id          Page1のpv   …       Page255のpv   継続したか
 123456      100                23           1
 234567      21                 2            0




(overfitしまくりの)決定木




          最初のボス倒したユーザーの80%が継続

                   ならボスを倒しやすくしてみよう
対象ユーザーの継続率が80→60%に




 逆に倒し辛くしたら?(実験中)
イテレーションが大事
                                効果測定
         自明な結果


問題定義    ファクターの発見         説明     施策適用
 0.5h      6h            0.5h    1h



                 データ収集
                  3day
アジャイルな話2
課金率が高い新規入会者が入ってきた
継続率も良い
Copyright©2011 givery, Inc. All
rights reserved.

                                  ダブルスコアで
                                  初期カードにかわいい系を選択
                                  かつ課金先のほとんどがガチャ
施策   結果




          二倍の反応率
発見から施策まで:
6時間
人工人工知能によるパターン発見のはなし
Librato Metricsで捗る

 自分以外数字をみてくれない
    Cactiでグラフ描いた→失敗
    Phpmyadminで自分で見て→失敗
 Librato Metrics
    APIに値投げるだけ
    安い。1プロット$0.000002 !
    パーマリンクも貼れる
    スクリーンショットも貼れる
    2010年代のオシャレっぽさ
数えられるくらいの量なら人間に
パターン発見やらせたほうが高性能
飽きそうなユーザーを
セグメント分けした話
主成分分析
Id        1月ガチャ課金   …   7月ガチャ課金   総額
123456    100           23        200
234567    21            2         50




「飽きつつあるユーザー」「最近課金しつつあるユーザー」「コンスタント」
などで説明できる主成分に
   [2012/07/05 17:34:17] 翔太 久保
   [2012/07/05 17:34:20] 翔太 久保: に置きました
   [2012/07/05 17:34:51] 翔太 久保: god.txtとい
    うのが元のデータで
   [2012/07/05 17:35:15] 翔太 久保: プレイヤーid
    ガチャ12001を回した回数 ・・・・ 12006 合
    計回数 というフォーマットになっています
   [2012/07/05 17:36:18] 翔太 久保: これを主成分
    分析なる物にかけると、元のガチャ6種類+合計
    の軸が 主成分なる謎の軸で表現できるように
    なります。これを図で示したのがpngの画像で
    す
   [2012/07/05 17:37:40] 翔太 久保: 例えば主成分
    2は合計額が多くて、12001の回数が多くて、
    他、特に12006が少ない人という意味なので、
    人間の言葉で表すと「昔はよかった」と言えそ
    うです
   [2012/07/05 17:38:47] 翔太 久保: 右の表を見
    て、昔は・・・のスコアが高い人は今日みた様
    な、1月に課金しまくって合計額も多いけど、今
    はやってない人の群になります。
   [2012/07/05 17:39:05] 翔太 久保: ちなみに一番
    スコア高いのは今日みた *****さんです
   [2012/07/05 17:39:08] 翔太 久保: ・・・という
   [2012/07/05 17:39:15] 翔太 久保: 説明下手なも
    ので・・
   [2012/07/05 17:40:03] 翔太 久保: 図を見ると主
    成分2と3の2軸を使うと3群くらいに分類できそ
    うな感じですよね。
   [2012/07/05 17:41:14] 翔太 久保: なので主成分
    2のスコアが高いユーザーを集めると「最近課金
    してくれないユーザー群」
   [2012/07/05 17:42:09] 翔太 久保: 主成分3は
    「ここ数カ月でたくさん課金してくれるユー
    ザー群」になるので、さらに集計するなり直で
    カムバックメッセージ送るなり、でしょうか活
    用するとしたら
簡単な方法ならそれが一番

 Facebookでデータサイエンティストとして働いている人の
  ブログより: Effectively answering questions is where
  technical skills become important. It's easy to get
  caught up in fancy algorithms and methods, but those
  approaches are usually premature optimizations. The
  best answers are 1) cheap and 2) easy to explain.
その他


Apache pig+amazon EMRと10行のスクリ
 プトで一年分のログを100円で集計できた話
相関ルールでキャラクター属性のカテゴラ
 イズ
シンプルなモデルでDAUを予測できた話
チーターを検出した話

More Related Content

Viewers also liked

【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
Zansa
 
ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実
Takashi J OZAKI
 
社会の意見のダイナミクスを物理モデルとして考えてみる
社会の意見のダイナミクスを物理モデルとして考えてみる社会の意見のダイナミクスを物理モデルとして考えてみる
社会の意見のダイナミクスを物理モデルとして考えてみる
takeshi0406
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
 
補足資料 財務3表の基礎知識
補足資料	財務3表の基礎知識補足資料	財務3表の基礎知識
補足資料 財務3表の基礎知識
horihorio
 
統計と会計 - Zansa#19
統計と会計 - Zansa#19統計と会計 - Zansa#19
統計と会計 - Zansa#19
horihorio
 
独立成分分析 ICA
独立成分分析 ICA独立成分分析 ICA
独立成分分析 ICA
Daisuke Yoneoka
 
tokyor29th
tokyor29thtokyor29th
tokyor29th
Mikiya Tanizawa
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfume
Yurie Oka
 

Viewers also liked (12)

【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
Zansa0802
Zansa0802Zansa0802
Zansa0802
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
 
ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実
 
社会の意見のダイナミクスを物理モデルとして考えてみる
社会の意見のダイナミクスを物理モデルとして考えてみる社会の意見のダイナミクスを物理モデルとして考えてみる
社会の意見のダイナミクスを物理モデルとして考えてみる
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 
補足資料 財務3表の基礎知識
補足資料	財務3表の基礎知識補足資料	財務3表の基礎知識
補足資料 財務3表の基礎知識
 
統計と会計 - Zansa#19
統計と会計 - Zansa#19統計と会計 - Zansa#19
統計と会計 - Zansa#19
 
独立成分分析 ICA
独立成分分析 ICA独立成分分析 ICA
独立成分分析 ICA
 
tokyor29th
tokyor29thtokyor29th
tokyor29th
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfume
 

Similar to Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」

(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
Shohei Hido
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際antibayesian 俺がS式だ
 
データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜
データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜
データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜
Daisuke Nogami
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
Shunsuke Nakamura
 
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
koba cky
 
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会) CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
cvpaper. challenge
 
全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
 
Treasure Data サポートにおける課題と改善について
Treasure Data サポートにおける課題と改善についてTreasure Data サポートにおける課題と改善について
Treasure Data サポートにおける課題と改善について
Keisuke Noda
 
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
Daisuke Nogami
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Shunsuke Nakamura
 
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Mao Yamaguchi
 
20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
Shunsuke Nakamura
 
データ分析しながらゲームの施策打ってみた
データ分析しながらゲームの施策打ってみたデータ分析しながらゲームの施策打ってみた
データ分析しながらゲームの施策打ってみた
Shin Semiya
 
デジタル時代の競争戦略を支える次世代データプラットフォーム
デジタル時代の競争戦略を支える次世代データプラットフォームデジタル時代の競争戦略を支える次世代データプラットフォーム
デジタル時代の競争戦略を支える次世代データプラットフォーム
Natsumi Yotsumoto
 
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューションTakahiro Inoue
 
Share Point Online 会社のデータしっかり管理のススメ
Share Point Online 会社のデータしっかり管理のススメShare Point Online 会社のデータしっかり管理のススメ
Share Point Online 会社のデータしっかり管理のススメ
kumo2010
 

Similar to Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」 (20)

(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜
データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜
データに振り回されて失敗した あんなことやこんなこと+α  〜なぜ数字の手助けが必要になるのか、その理由と分析の実践例〜
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
 
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
 
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会) CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
 
全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事
 
Treasure Data サポートにおける課題と改善について
Treasure Data サポートにおける課題と改善についてTreasure Data サポートにおける課題と改善について
Treasure Data サポートにおける課題と改善について
 
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
 
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
 
20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
 
20180717 zeal
20180717 zeal20180717 zeal
20180717 zeal
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
 
データ分析しながらゲームの施策打ってみた
データ分析しながらゲームの施策打ってみたデータ分析しながらゲームの施策打ってみた
データ分析しながらゲームの施策打ってみた
 
デジタル時代の競争戦略を支える次世代データプラットフォーム
デジタル時代の競争戦略を支える次世代データプラットフォームデジタル時代の競争戦略を支える次世代データプラットフォーム
デジタル時代の競争戦略を支える次世代データプラットフォーム
 
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
 
Share Point Online 会社のデータしっかり管理のススメ
Share Point Online 会社のデータしっかり管理のススメShare Point Online 会社のデータしっかり管理のススメ
Share Point Online 会社のデータしっかり管理のススメ
 

Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」