「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る

13,713 views

Published on

DCC7 / EIP64 May 14, 2014

Published in: Technology

「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る

  1. 1. 「データサイエンティスト・ ブーム」後の企業における データ分析者像を探る 株式会社リクルートコミュニケーションズ データサイエンティスト 尾崎 隆 (Takashi J. OZAKI, Ph. D.) 2014/5/13 1
  2. 2. 一応、自己紹介を… 尾崎 隆 (Takashi J. OZAKI, Ph.D.)  “J”に深い意味はありません  学者だった頃に同業界にT. Ozakiさんがいたので  と思ってJをつけたら、別業界にT. J. Ozakiさんが… 2014/5/13 2
  3. 3. 一応、自己紹介を…  前職は「脳科学者」(認知神経科学者)でした 2014/5/13 3 (Ozaki, PLoS One, 2011)
  4. 4. 一応、自己紹介を… こういうキャリアをたどっております  1997~2001年 東京大学工学部計数工学科 (※情報工学系)  2001~2006年 東京大学大学院新領域創成科学研究科 修士&博士課程(脳科学)  2006~2011年 理化学研究所脳科学総合研究センター 研究員(脳科学)  2011~2012年 東京大学教養学部 特任研究員(心理学)  2012年4月 慶應義塾大学医学部 特任助教(産学連携) ※30代のうちにバイオ系分野のポスドク問題を乗り 切ることは 事実上不可能と判断して、キャリアチェ ンジに打って出ることを決心  2012年6月 サイバーエージェント入社  2013年7月 リクルートコミュニケーションズ入社 2014/5/13 4
  5. 5. 一応、自己紹介を… こういうことをしていました  2003~2006年 機能的MRIを用いたヒト脳研究 (有力なノーベル賞候補として知られ、 機能的MRIを発明した小川誠二先生 の研究所にて研修生として共同研究を していました)  2006~2011年 脳信号に対する計量時系列分析を用いた ネットワーク解析  2011~2012年 脳信号に対する上記ネットワーク解析+ SVMを用いた脳活動分類 2014/5/13 5
  6. 6. 一応、自己紹介を… 現在は… 2014/5/13 6 ブログ&Twitterやってます
  7. 7. ところで、 2014/5/13 7 「データサイエンティスト」についての記事、 もうだいぶ前から世間では溢れ返ってますよね。
  8. 8. 例えば  データサイエンティストとは何か  データサイエンティストのつくり方  データサイエンティストのつかい方  データサイエンティストと「分析力」  データサイエンティストの育成について  データサイエンティストのスキルセット  データサイエンティストとビッグデータ  データサイエンティストの要件とは  データサイエンティストはどんな企業にいるのか …などなど挙げればキリがないですね 2014/5/13 8
  9. 9. でも、気が付いたら… 2014/5/13 9 いつの間にか「データサイエンティスト」って、 オワコンになってますよね。
  10. 10. Googleトレンドは嘘つきません 2014/5/13 10 まだまだ上り調子 既に低迷…
  11. 11. ということで、 2014/5/13 11 本日は「データサイエンティスト・ブーム」終焉後の ビジネスにおけるデータ分析者のあるべき姿について 「現場感」を交えつつお話します。
  12. 12. 本日のお品書き  2014年版データ分析者の3要素  「アルゴリズム実装」「アドホック分析」への二極化  今後どのような業界がデータ分析者を必要とするのか  ケーススタディ:企業ではどんなデータ分析をしているのか 2014/5/13 12
  13. 13. 本日のお品書き 3要素! 2014/5/13 13 データ分析者 )),(1( 1   n k kikki Kyy xx データ分析者 マネージャー 予測してみました わかりやすいね アドホック分析 / アルゴリズム実装 )),(1( 1   n k kikki Kyy xx どこに 行こう? データ分析者 アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通
  14. 14. 本日のお品書き  2014年版データ分析者の3要素  「アルゴリズム実装」「アドホック分析」への二極化  今後どのような業界がデータ分析者を必要とするのか  ケーススタディ:企業ではどんなデータ分析をしているのか 2014/5/13 14
  15. 15. 本日のお品書き 3要素! 2014/5/13 15 データ分析者 )),(1( 1   n k kikki Kyy xx データ分析者 マネージャー 予測してみました わかりやすいね アドホック分析 / アルゴリズム実装 )),(1( 1   n k kikki Kyy xx どこに 行こう? データ分析者 アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通
  16. 16. 2014年版データ分析者の3要素 データサイエンティスト “Data Scientist: The Sexiest Job of the 21st Century” Thomas H. Davenport and D.J. Patil, HBR Oct, 2012 「データサイエンティストは21世紀 で最もセクシーな職業」 大変有名な売り文句 2014/5/13 16
  17. 17. 2014年版データ分析者の3要素 データサイエンティスト データマイニング アナリティクス・レポーティング コンサルティング・マーケティング 中でも重要な3つの要件と言われていたのが… 2014/5/13 17
  18. 18. 2014年版データ分析者の3要素 「スーパーマン」説(HBRなど)  コンサルタントorマーケッター  アナリストorレポーティング スペシャリスト  データマイニングスペシャリスト …を、「同時に兼ねる」  そんなスーパーマンどこにいるの? …いたら誰も苦労しない データサイエンティスト へ?スーパーマン? 2014/5/13 18
  19. 19. 2014年版データ分析者の3要素 2014/5/13 19 まだまだ上り調子 既に低迷… だがスーパーマン的データサイエンティストはオワコン
  20. 20. 2014年版データ分析者の3要素  そこで出てきたのが「三位一体」説  スーパーマンなんて無理  3つの役割を例えば3人で分担  チームで揃えば「1つの完成したデータ サイエンティスト像になる」 データサイエンティスト ・・・三位一体! 2014/5/13 20
  21. 21. 2014年版データ分析者の3要素 2014/5/13 21 スーパーマンは不要なら「三位一体」 では、どんな人材が必要?
  22. 22. 2014年版データ分析者の3要素 分析ィィィィィ レポートォォォォォ コンサルゥゥゥゥゥ 従来のデータサイエンティスト像 2014/5/13 22 データマイニング アナリティクスorレポーティング コンサルティングor マーケティング
  23. 23. 2014年版データ分析者の3要素 分析ィィィィィ へ? へ? 2014/5/13 23 従来のデータサイエンティスト像 データマイニング アナリティクスorレポーティング コンサルティングor マーケティング
  24. 24. 2014年版データ分析者の3要素 データマイニング ・・・あれれ? コンサルティングorマーケティング orアナリティクス 一人分にまとめられた。。。 2014/5/13 24 従来のデータサイエンティスト像
  25. 25. 2014年版データ分析者の3要素 ・・・あれれ? 2014/5/13 25 一人分にまとめられた。。。 従来のデータサイエンティスト像 データマイニング コンサルティングorマーケティング orアナリティクス
  26. 26. 2014年版データ分析者の3要素 おお!!! 2014/5/13 26 おおお!!! 一人分にまとめられた。。。 現代のデータ分析チーム 統計学・機械学習の 学術的スキル コンサルタントorマーケッター orアナリストとしてのスキル プログラミング・DB・インフラ 等IT基盤技術スキル
  27. 27. 2014年版データ分析者の3要素 統計学・機械学習の 学術的スキル コンサルタントorマーケッター orアナリストとしてのスキル 2014/5/13 27 プログラミング・DB・インフラ 等IT基盤技術スキル KPI1を上げるためには○○! )),(1( 1   n k kikki Kyy xx 現代のデータ分析チーム
  28. 28. 本日のお品書き  2014年版データ分析者の3要素  「アルゴリズム実装」「アドホック分析」への二極化  今後どのような業界がデータ分析者を必要とするのか  ケーススタディ:企業ではどんなデータ分析をしているのか 2014/5/13 28
  29. 29. 本日のお品書き 3要素! 2014/5/13 29 データ分析者 )),(1( 1   n k kikki Kyy xx データ分析者 マネージャー 予測してみました わかりやすいね アドホック分析 / アルゴリズム実装 )),(1( 1   n k kikki Kyy xx どこに 行こう? データ分析者 アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通
  30. 30. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 30 統計学・機械学習の 学術的スキル コンサルタントorマーケッター orアナリストとしてのスキル プログラミング・DB・インフラ 等IT基盤技術スキル KPI1を上げるためには○○! )),(1( 1   n k kikki Kyy xx 現代のデータ分析チーム
  31. 31. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 31 KPI1を上げるためには○○! 割と容易 かなり難しい 統計学・機械学習の 学術的スキル コンサルタントorマーケッター orアナリストとしてのスキル プログラミング・DB・インフラ 等IT基盤技術スキル )),(1( 1   n k kikki Kyy xx
  32. 32. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 32 KPI1を上げるためには○○! 統計学・機械学習の 学術的スキル コンサルタントorマーケッター orアナリストとしてのスキル プログラミング・DB・インフラ 等IT基盤技術スキル )),(1( 1   n k kikki Kyy xx
  33. 33. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 33 あれれ、吸収されていく… 左側の二者がビジネススキルを 身に付けてしまえば良い 統計学・機械学習の 学術的スキル コンサルタントorマーケッター orアナリストとしてのスキル プログラミング・DB・インフラ 等IT基盤技術スキル )),(1( 1   n k kikki Kyy xx
  34. 34. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 34 プランニングとマネジメント 統計学・機械学習の 学術的エキスパート ディレクターorプランナープログラミング・DB・インフラ 等IT基盤技術エキスパート データ分析+ディレクション というチーム形態 )),(1( 1   n k kikki Kyy xx
  35. 35. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 35 ところで、データサイエンティストの仕事は、 さらに2通りに分かれることをご存知ですか?
  36. 36. 「アルゴリズム実装」「アドホック分析」への二極化 • スパムフィルタ・レコメンド システム・広告最適化配信など 「システム開発・実装」 アルゴリズム 実装系 • 事業改善・現況分析レポート・ 市場動向予想など 「分析(グロースハック)」 アドホック 分析系 2014/5/13 36
  37. 37. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 37 統計学・機械学習の 学術的エキスパート プログラミング・DB・インフラ 等IT基盤技術エキスパート そこで、こういう合従連衡が起きる )),(1( 1   n k kikki Kyy xx
  38. 38. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 38 統計学と機械学習とIT技術全てに通じて レポートがアウトプットになる系 統計学と機械学習とIT技術全てに通じて システム構築がアウトプットになる系 そこで、こういう合従連衡が起きる )),(1( 1   n k kikki Kyy xx 「レポート主体なら この環境がいいよね」 「システム組むなら この環境かなぁ」 「ここは共通」
  39. 39. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 39 これらの2パターンを名付けて…
  40. 40. 「アルゴリズム実装」「アドホック分析」への二極化 2014/5/13 40 アルゴリズム実装系 データ分析 )),(1( 1   n k kikki Kyy xx アドホック分析系 データ分析 共通スキル
  41. 41. 本日のお品書き  2014年版データ分析者の3要素  「アルゴリズム実装」「アドホック分析」への二極化  今後どのような業界がデータ分析者を必要とするのか  ケーススタディ:企業ではどんなデータ分析をしているのか 2014/5/13 41
  42. 42. 本日のお品書き 3要素! 2014/5/13 42 データ分析者 )),(1( 1   n k kikki Kyy xx データ分析者 マネージャー 予測してみました わかりやすいね アドホック分析 / アルゴリズム実装 )),(1( 1   n k kikki Kyy xx どこに 行こう? データ分析者 アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通
  43. 43. 今後どのような業界がデータ分析者を必要とするのか アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通 2014/5/13 43 特にデータ分析が 求められている業界
  44. 44. 今後どのような業界がデータ分析者を必要とするのか • レコメンダーシステム • サイト面のA/Bテスト、 多腕バンディット Eコマース • 課金イベントの個々のユー ザー単位での最適化 • 最適ゲームレベル設定 ソシャゲ 2014/5/13 44
  45. 45. 今後どのような業界がデータ分析者を必要とするのか • SSP / DSP • DMPによるユーザー単位最適広告配信 • 広告予算ポートフォリオ最適化 アドテク • キュレーションサービス(レコメン ダーシステムなど) • 画像認識、音声認識、自然言語処理など Tech系 スタート アップ 2014/5/13 45
  46. 46. 今後どのような業界がデータ分析者を必要とするのか • 既存メディア広告の最適化 • 視聴者情報に基づくサービス開発 メディア • データに基づく経営意思決定支援 • データ管理システム導入 コンサル • 「クオンツ」 • 「アクチュアリー」 金融 • 流通コスト最適化 • 在庫の最適管理 流通 2014/5/13 46
  47. 47. 本日のお品書き  2014年版データ分析者の3要素  「アルゴリズム実装」「アドホック分析」への二極化  今後どのような業界がデータ分析者を必要とするのか  ケーススタディ:企業ではどんなデータ分析をしているのか 2014/5/13 47
  48. 48. 本日のお品書き 3要素! 2014/5/13 48 データ分析者 )),(1( 1   n k kikki Kyy xx データ分析者 マネージャー 予測してみました わかりやすいね アドホック分析 / アルゴリズム実装 )),(1( 1   n k kikki Kyy xx どこに 行こう? データ分析者 アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通
  49. 49. ケーススタディ:企業ではどんなデータ分析をしているのか 2014/5/13 49 あくまでもよくあるケースをRでの実行例とともに 挙げていきます (※基本的に業界ごとに違います:例えばソシャゲ系とアドテク系と コンサル系とでは全く違う)
  50. 50. ID game1 game2 game3 social1 social2 app1 app2 cv 1001 0 0 0 1 0 0 0No 1002 1 0 0 1 1 0 0No 1003 0 1 1 1 1 1 0Yes 1004 0 0 1 1 0 1 1Yes 1005 1 0 1 0 1 1 1Yes 1006 0 0 0 1 1 1 0No … … … … … … … …… ケーススタディ:ソシャゲでCV貢献要素を同定し、予測したい ユーザーID+素性(そせい)ベクトル+分類ラベル ユーザー行動ログをHiveで取ってきて、 前処理をかけて以下のように直す。 2014/5/13 50
  51. 51. ケーススタディ:ソシャゲでCV貢献要素を同定し、予測したい 素性=学習データ 正解 ラベル 教師あり機械学習で 1) 分類&貢献度の高い指標の特定 2) 未来データの予測 などの高度な分析が可能 (ロジスティック回帰、SVM、ランダムフォレスト等) 2014/5/13 51 ID game1 game2 game3 social1 social2 app1 app2 cv 1005 1 0 1 0 1 1 1Yes
  52. 52. ケーススタディ:ソシャゲでCV貢献要素を同定し、予測したい 2014/5/13 52 > d1.glm<-glm(cv~.,d1,family=binomial) > summary(d1.glm) Call: glm(formula = cv ~ ., family = binomial, data = d1) Deviance Residuals: Min 1Q Median 3Q Max -3.6404 -0.2242 -0.0358 0.2162 3.1418 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.37793 0.25979 -5.304 1.13e-07 *** game1 1.05846 0.17344 6.103 1.04e-09 *** game2 -0.54914 0.16752 -3.278 0.00105 ** game3 0.12035 0.16803 0.716 0.47386 social1 -3.00110 0.21653 -13.860 < 2e-16 *** social2 1.53098 0.17349 8.824 < 2e-16 *** app1 5.33547 0.19191 27.802 < 2e-16 *** app2 0.07811 0.16725 0.467 0.64048 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 4158.9 on 2999 degrees of freedom Residual deviance: 1044.4 on 2992 degrees of freedom AIC: 1060.4 Number of Fisher Scoring iterations: 7 例えばロジスティック回帰なら…
  53. 53. ケーススタディ:ソシャゲでCV貢献要素を同定し、予測したい 2014/5/13 53 > tuneRF(d1[,-8],d1[,8],doBest=T) mtry = 2 OOB error = 6.2% Searching left ... mtry = 1 OOB error = 9.8% -0.5806452 0.05 Searching right ... mtry = 4 OOB error = 6.37% -0.02688172 0.05 # 略 > d1.rf<-randomForest(cv~.,d1,mtry=2) > print(d1.rf) Call: randomForest(formula = cv ~ ., data = d1, mtry = 2) Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 2 OOB estimate of error rate: 6.4% Confusion matrix: No Yes class.error No 1400 100 0.06666667 Yes 92 1408 0.06133333 > d1.rf$importance MeanDecreaseGini game1 22.687882 game2 11.799479 game3 2.477267 social1 205.650997 social2 81.927232 app1 757.108939 app2 2.757827 例えばランダムフォレストなら…
  54. 54. ケーススタディ:ソシャゲでCV貢献要素を同定し、予測したい 2014/5/13 54 アソシエーション分析と グラフ構造可視化を合わせると…
  55. 55. ケーススタディ:オンライン広告のクリエイティブを最適化したい 2014/5/13 55 bgcolor fontcolor fontsize campaign imp click black yellow large price 5372 338 black yellow large quality 4763 197 black yellow small quantity 13315 126 blue white large quantity 823 498 blue yellow small quality 10688 109 blue white large price 1966 217 black white small quantity 904 73 black white small price 7392 494 blue white small quality 18765 195 blue yellow large quantity 1293 211 blue yellow small price 12714 368 black white large quality 13620 410 あるキャンペーンのバナー広告を想定する:背景は「黒or青」、フォント カラーは「黄or白」、フォントサイズは「大or小」、キャンペーン内容は 「品質重視or数量(お買い得)重視」 Click-through rate (CTR: click/imp)への寄与度をロジスティック回帰で検証
  56. 56. ケーススタディ:オンライン広告のクリエイティブを最適化したい 2014/5/13 56 > ads.glm<-glm(cbind(click,imp-click)~.,ads,family=binomial) > summary(ads.glm) Call: glm(formula = cbind(click, imp - click) ~ ., family = binomial, data = ads) Deviance Residuals: Min 1Q Median 3Q Max -14.0809 -4.8288 0.7445 7.1025 15.2489 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.69218 0.04345 -38.95 <2e-16 *** bgcolorblue 0.49417 0.03773 13.10 <2e-16 *** fontcoloryellow -0.99586 0.04193 -23.75 <2e-16 *** fontsizesmall -1.46809 0.03789 -38.74 <2e-16 *** campaignquality -1.54981 0.04679 -33.12 <2e-16 *** campaignquantity 0.55265 0.04645 11.90 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 4250.65 on 11 degrees of freedom Residual deviance: 990.02 on 6 degrees of freedom AIC: 1087.8 Number of Fisher Scoring iterations: 5 背景は「青」 フォントカラーは「白」 フォントサイズは「大」 キャンペーンは「数量重視」 が、CTR向上に効果的という結果
  57. 57. ケーススタディ:3種のオンライン広告投下額からCVユーザー数 をモデリングしたい 2014/5/13 57 CVユーザー数の時系列 3種のオンライン広告投下額の 時系列
  58. 58. ケーススタディ:3種のオンライン広告投下額からCVユーザー数 をモデリングしたい 2014/5/13 58 馬鹿正直に正規線形モデルを当てはめると、トレンドが表現できない
  59. 59. ケーススタディ:3種のオンライン広告投下額からCVユーザー数 をモデリングしたい 2014/5/13 59 Stan MCサンプラーを用いて、階層ベイズモデル に基づくベイジアンモデリングを行う
  60. 60. ケーススタディ:3種のオンライン広告投下額からCVユーザー数 をモデリングしたい 2014/5/13 60 model { real q[N]; trend~normal(28,20); for (i in 3:N) trend[i]~normal(2*trend[i-1]-trend[i-2],s_trend); for (i in 1:N) q[i]<-y[i]-trend[i]; for (i in 1:N) q[i]~normal(a*x1[i]+b*x2[i]+c*x3[i]+d,s_q); } 𝐶𝑉𝑡 = 𝑄𝑡 + 𝑡𝑟𝑒𝑛𝑑 𝑡 𝑄𝑡 = 𝑎𝑥1𝑡 + 𝑏𝑥2𝑡 + 𝑐𝑥3𝑡 + 𝑑 + 𝜀𝑡 𝑡𝑟𝑒𝑛𝑑 𝑡 − 𝑡𝑟𝑒𝑛𝑑 𝑡−1 = 𝑡𝑟𝑒𝑛𝑑 𝑡−1 − 𝑡𝑟𝑒𝑛𝑑 𝑡−2 + 𝜀𝑡 (𝜀𝑡 ≈ 𝑁 𝜇, 𝜎 ) CVユーザー数を正規線形モデル+トレンドの和で表現した階層ベイズモデル
  61. 61. ケーススタディ:3種のオンライン広告投下額からCVユーザー数 をモデリングしたい 2014/5/13 61 階層ベイズモデルにより、トレンドを表現した上で正確にモデリング 3種類の広告それぞれの 効果の比
  62. 62. ケーススタディ:3種のオンライン広告投下額からCVユーザー数 をモデリングしたい 2014/5/13 62 階層ベイズモデルにより、トレンドを表現した上で正確にモデリング
  63. 63. 以上、「データサイエンティスト・ブーム」終焉後のデータ分析者像 を見てきました 3要素! 2014/5/13 63 データ分析者 )),(1( 1   n k kikki Kyy xx データ分析者 マネージャー 予測してみました わかりやすいね アドホック分析 / アルゴリズム実装 )),(1( 1   n k kikki Kyy xx どこに 行こう? データ分析者 アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通
  64. 64. 「データサイエンティスト」はオワコンになっても… 2014/5/13 64 データ分析者のニーズと、 データ分析カルチャーとは、 今後もビジネスシーンに浸透し続ける。 何故なら、嫌でも今後データは貯まり、 いずれは「そのデータで何をするか」*を どこの企業でも必ず問う羽目になるから。 * 同時に何を「しないか」も問われる
  65. 65. 言い換えると 2014/5/13 65 今が日本の企業におけるデータ分析の夜明け。 チャンスも課題もこれから!

×