Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

最新業界事情から見るデータサイエンティストの「実像」

131,040 views

Published on

PDFでupし直しました。
Webマーケティング・リレーセミナー 15
http://www.cb21.co.jp/seminar_events/relayseminar/15.html
でお話した内容です。ただしオフレコで質疑でぶっちゃけた話の方が面白かったかもしれません(笑)が、それは会場参加者の皆さまだけの特典ということで。

  • Be the first to comment

最新業界事情から見るデータサイエンティストの「実像」

  1. 1. 最新業界事情から見る データサイエンティストの 「実像」 株式会社リクルートコミュニケーションズ データサイエンティスト 尾崎 隆 (Takashi J. OZAKI, Ph. D.) 2013/8/31 1
  2. 2. 一応、自己紹介を… 尾崎 隆 (Takashi J. OZAKI, Ph.D.)  “J”に深い意味はありません  学者だった頃に同業界にT. Ozakiさんがいたので  と思ってJをつけたら、別業界にT. J. Ozakiさんが… 2013/8/31 2
  3. 3. 一応、自己紹介を…  前職は「脳科学者」(認知神経科学者)でした 2013/8/31 3 (Ozaki, PLoS One, 2011)
  4. 4. 一応、自己紹介を… こういうキャリアをたどっております  1997~2001年 東京大学工学部計数工学科 (※情報工学系)  2001~2006年 東京大学大学院新領域創成科学研究科 修士&博士課程(脳科学)  2006~2011年 理化学研究所脳科学総合研究センター 研究員(脳科学)  2011~2012年 東京大学教養学部 特任研究員(心理学)  2012年4月 慶應義塾大学医学部 特任助教(産学連携) ※30代のうちにポスドク問題を乗り切ることは 事実上不可能と判断して、キャリアチェンジに 打って出ることを決心  2012年6月 サイバーエージェント入社  2013年7月 リクルートコミュニケーションズ入社 2013/8/31 4
  5. 5. 一応、自己紹介を… こういうことをしていました  2003~2006年 機能的MRIを用いたヒト脳研究 (有力なノーベル賞候補として知られ、 機能的MRIを発明した小川誠二先生 の研究所にて研修生として共同研究を していました)  2006~2011年 脳信号に対する計量時系列分析を用いた ネットワーク解析  2011~2012年 脳信号に対する上記ネットワーク解析+ SVMを用いた脳活動分類 2013/8/31 5
  6. 6. 一応、自己紹介を… 現在は… 2013/8/31 6 ブログ&Twitterやってます
  7. 7. 一応、自己紹介を… 現在は… 2013/8/31 7 リクルートグループ全体のマーケティングにおける データ分析を担当するデータサイエンティスト
  8. 8. ところで、 2013/8/31 8 「データサイエンティスト」についての記事、 もうだいぶ前から世間では溢れ返ってますよね。
  9. 9. 例えば  データサイエンティストとは何か  データサイエンティストのつくり方  データサイエンティストのつかい方  データサイエンティストと「分析力」  データサイエンティストの育成について  データサイエンティストのスキルセット  データサイエンティストとビッグデータ  データサイエンティストの要件とは  データサイエンティストはどんな企業にいるのか …などなど挙げればキリがないですね 2013/8/31 9
  10. 10. ということで、 2013/8/31 10 今日は「実際のデータ分析の現場から見た」 データサイエンティストの実像についてお話します。
  11. 11. 本日のお品書き  データサイエンティストの新・3要素  データサイエンティストは2系統に分かれる  どこにデータサイエンティストはいるのか  実際にデータサイエンティストはどのような仕事をしているのか 2013/8/31 11
  12. 12. 本日のお品書き 3要素! うおおおおおお? ※PFI比戸様より承諾を頂いております 2013/8/31 12 データサイエンティスト データサイエンティスト )),(1( 1   n k kikki Kyy xx データサイエンティスト マネージャー うおおおおおお たのんだよー ふたりはデータサイエンティスト )),(1( 1   n k kikki Kyy xx
  13. 13. 本日のお品書き  データサイエンティストの新・3要素  データサイエンティストは2系統に分かれる  どこにデータサイエンティストはいるのか  実際にデータサイエンティストはどのような仕事をしているのか 2013/8/31 13
  14. 14. 本日のお品書き 3要素! うおおおおおお? ※PFI比戸様より承諾を頂いております 2013/8/31 14 データサイエンティスト データサイエンティスト )),(1( 1   n k kikki Kyy xx データサイエンティスト マネージャー うおおおおおお たのんだよー ふたりはデータサイエンティスト )),(1( 1   n k kikki Kyy xx
  15. 15. データサイエンティストの新・3要素 データサイエンティスト “Data Scientist: The Sexiest Job of the 21st Century” - Thomas H. Davenport and D.J. Patil, HBR Oct, 2012 「データサイエンティストは21世紀で最もセクシーな職業」 大変有名な売り文句 2013/8/31 15
  16. 16. データサイエンティストの新・3要素 データサイエンティスト データマイニング アナリティクス・レポーティング コンサルティング・マーケティング 中でも重要な3つの要件と言われていたのが… 2013/8/31 16
  17. 17. データサイエンティストの新・3要素  「スーパーマン」説(HBRなど)  コンサルタントorマーケッター  アナリストorレポーティング スペシャリスト  データマイニングスペシャリスト …を、「同時に兼ねる」  そんなスーパーマンどこにいるの? …いたら誰も苦労しない データサイエンティスト へ?スーパーマン? 2013/8/31 17
  18. 18. データサイエンティストの新・3要素 優秀なデータ・サイエンティストは稀少なので、獲得競争 が熾烈で、離職を食い止めるのも難しい。金銭面の報酬だ けでなく、自由度のある職務環境を用意し、意思決定者と データをつなぐ「かけ橋」となって価値あるものをつくり 上げたいというニーズに応え、やりがいのある課題を与え ることが重要である データサイエンティスト ニヤリ 2013/8/31 18
  19. 19. データサイエンティストの新・3要素  「三位一体」説 (ブレインパッド社草野社長、佐藤氏)  スーパーマンなんて無理  3つの役割を例えば3人で分担  チームで揃えば「1つの完成したデータ サイエンティスト像になる」 データサイエンティスト ・・・三位一体! 2013/8/31 19
  20. 20. データサイエンティストの新・3要素 データマイニング スペシャリスト 分析ィィィィィ アナリストor レポーティングスペシャリスト レポートォォォォォ コンサルタントor マーケッター コンサルゥゥゥゥゥ データサイエンティスト像 2013/8/31 20
  21. 21. データサイエンティストの新・3要素 2013/8/31 21 ここまでが、今年の上半期までに言われてきた 「データサイエンティスト像」でした。 ならば、今の「データサイエンティスト像」とは?
  22. 22. データサイエンティストの新・3要素 データマイニング スペシャリスト 分析ィィィィィ アナリストor レポーティングスペシャリスト レポートォォォォォ コンサルタントor マーケッター コンサルゥゥゥゥゥ 2013/8/31 22 データサイエンティスト像
  23. 23. データサイエンティストの新・3要素 データマイニング スペシャリスト 分析ィィィィィ アナリストor レポーティングスペシャリスト へ? コンサルタントor マーケッター へ? 2013/8/31 23 データサイエンティスト像
  24. 24. データサイエンティストの新・3要素 データマイニング スペシャリスト ・・・あれれ? コンサルタントorマーケッター orアナリスト 一人分にまとめられた。。。 2013/8/31 24 データサイエンティスト像
  25. 25. データサイエンティストの新・3要素 データマイニング スペシャリスト ・・・あれれ? コンサルタントorマーケッター orアナリスト 2013/8/31 25 一人分にまとめられた。。。 データサイエンティスト像
  26. 26. データサイエンティストの新・3要素 統計学・機械学習の スペシャリスト おお!!! コンサルタントorマーケッター orアナリスト 2013/8/31 26 プログラミング・DB・インフラ 等IT基盤技術スペシャリスト おおお!!! 一人分にまとめられた。。。 データサイエンティスト像
  27. 27. データサイエンティストの新・3要素  コンサルティング / マーケティング / アナリティクス などの ビジネススキル  プログラミング / DB / ITインフラ などのIT基盤技術  統計学 / 機械学習 などのデータサイエンスの学識 2013/8/31 27
  28. 28. データサイエンティストの新・3要素 統計学・機械学習の スペシャリスト コンサルタントorマーケッター orアナリスト 2013/8/31 28 プログラミング・DB・インフラ 等IT基盤技術スペシャリスト public static void main(String[] args) KPI#1を上げるためには○○!)),(1( 1   n k kikki Kyy xx データサイエンティスト像
  29. 29. 本日のお品書き  データサイエンティストの新・3要素  データサイエンティストは2系統に分かれる  どこにデータサイエンティストはいるのか  実際にデータサイエンティストはどのような仕事をしているのか 2013/8/31 29
  30. 30. 本日のお品書き 3要素! うおおおおおお? ※PFI比戸様より承諾を頂いております 2013/8/31 30 データサイエンティスト データサイエンティスト )),(1( 1   n k kikki Kyy xx データサイエンティスト マネージャー うおおおおおお たのんだよー ふたりはデータサイエンティスト )),(1( 1   n k kikki Kyy xx
  31. 31. データサイエンティストは2系統に分かれる 統計学・機械学習の スペシャリスト コンサルタントorマーケッター orアナリスト 2013/8/31 31 プログラミング・DB・インフラ 等IT基盤技術スペシャリスト public static void main(String[] args) KPI1を上げるためには○○!)),(1( 1   n k kikki Kyy xx データサイエンティスト像
  32. 32. データサイエンティストは2系統に分かれる 統計学・機械学習の スペシャリスト コンサルタントorマーケッター orアナリスト 2013/8/31 32 プログラミング・DB・インフラ 等IT基盤技術スペシャリスト public static void main(String[] args) KPI1を上げるためには○○!)),(1( 1   n k kikki Kyy xx 割と容易 かなり難しい
  33. 33. データサイエンティストは2系統に分かれる 統計学・機械学習の スペシャリスト コンサルタントorマーケッター orアナリスト 2013/8/31 33 プログラミング・DB・インフラ 等IT基盤技術スペシャリスト public static void main(String[] args) KPI1を上げるためには○○!)),(1( 1   n k kikki Kyy xx
  34. 34. データサイエンティストは2系統に分かれる 統計学・機械学習の スペシャリスト コンサルタントorマーケッター orアナリスト 2013/8/31 34 プログラミング・DB・インフラ 等IT基盤技術スペシャリスト public static void main(String[] args) あれれ、吸収されていく… )),(1( 1   n k kikki Kyy xx 左側の二者がビジネススキルを 身に付けてしまえば良い
  35. 35. データサイエンティストは2系統に分かれる 2013/8/31 35 3要素! データサイエンティスト )),(1( 1   n k kikki Kyy xx
  36. 36. データサイエンティストは2系統に分かれる 2013/8/31 36 お、2要素? ビジネス感覚に優れた データサイエンティスト )),(1( 1   n k kikki Kyy xx 統計学・機械学習などの学識 プログラミング・DB・インフラ 等のIT基盤技術
  37. 37. データサイエンティストは2系統に分かれる 2013/8/31 37 ところで、データサイエンティストの仕事は、 さらに2通りに分かれることをご存知ですか?
  38. 38. データサイエンティストは2系統に分かれる • スパムフィルタ・レコメンド システム・広告最適化配信など アルゴリズム 実装系 • 事業改善・現況分析レポート・ 市場動向予想など アドホック 分析系 2013/8/31 38
  39. 39. データサイエンティストは2系統に分かれる 2013/8/31 39 尾崎の古巣でもあるアカデミック業界の イメージで喩えると…
  40. 40. データサイエンティストは2系統に分かれる • 機械学習・自律制御・言語認識 などのシステム研究開発 • 計算機科学・情報科学・ 情報工学など 人工知能系 • 新たな科学的知識の発見 • 生態学・計量経済学・生命科 学・心理学・社会学など 実験科学系 2013/8/31 40
  41. 41. データサイエンティストは2系統に分かれる 2013/8/31 41 これらの2パターンを名付けて…
  42. 42. データサイエンティストは2系統に分かれる 2013/8/31 42 アルゴリズム実装系 データサイエンティスト )),(1( 1   n k kikki Kyy xx アドホック分析系 データサイエンティスト
  43. 43. 本日のお品書き  データサイエンティストの新・3要素  データサイエンティストは2系統に分かれる  どこにデータサイエンティストはいるのか  実際にデータサイエンティストはどのような仕事をしているのか 2013/8/31 43
  44. 44. 本日のお品書き 3要素! うおおおおおお? ※PFI比戸様より承諾を頂いております 2013/8/31 44 データサイエンティスト データサイエンティスト )),(1( 1   n k kikki Kyy xx データサイエンティスト マネージャー うおおおおおお たのんだよー ふたりはデータサイエンティスト )),(1( 1   n k kikki Kyy xx
  45. 45. どこにデータサイエンティストはいるのか 今後は、データ・サイエンティストを養成する大学が増え てくると思われるが、それを待たずに、いまから積極的に 確保していかないと、情報化社会では致命的な遅れにつな がるおそれがあるデータサイエンティスト ! 2013/8/31 45
  46. 46. どこにデータサイエンティストはいるのか データサイエンティストを育成する方法論は、 今のところ日本ではどこにもない(企業にも大学にも) 2013/8/31 46
  47. 47. どこにデータサイエンティストはいるのか 崖から親に落とされ、這い登って 強くなる獅子の子の如く… 自らの力で道なき道を切り拓き、 データサイエンティストになる ことを目指すしかない! 2013/8/31 47
  48. 48. 余談 ※野生のライオンでもちゃんと 親が助けに下りていくそうです 2013/8/31 48
  49. 49. どこにデータサイエンティストはいるのか? でも、適性もあるはず。例えば学生ならどこにいる? 2013/8/31 49
  50. 50. どこにデータサイエンティストはいるのか? 計算機科学系 情報工学系 「定量科学」系 • 生態学、疫学、計量経済学、生命情報 学、実験心理学、社会学etc. 2013/8/31 50
  51. 51. どこにデータサイエンティストはいるのか? もう面倒だからどっかから引き抜きたい。 即戦力のデータサイエンティストはどこにいる? 2013/8/31 51
  52. 52. どこにデータサイエンティストはいるのか? インターネット産業 •SNS、メッセージング、ソシャゲ、eコマース、キュレーショ ンサービスetc. 広告代理店 •特にオンライン広告系、アドテクノロジー系 金融業 •いわゆる「クオンツ」系 一部メーカー •大手Sier、製造業の品質管理系など 2013/8/31 52
  53. 53. どこにデータサイエンティストはいるのか? データサイエンティスト候補を見つけた。 でも、どの辺を最低限の条件として見るべき? 2013/8/31 53
  54. 54. どこにデータサイエンティストはいるのか? データサイエンティスト 1. データサイエンティストは「科学者」、 よって「科学者になれる人」が大前提 - そもそも”scientist”という語が付いている - 名前の通り、科学的方法に従ってデータを扱い、 ビジネスに貢献できる人材であることが期待され ている - 「科学者」でなければ、おそらくありふれた普通 のコンサルタント・マーケッター・アナリストと 同じになってしまう 2013/8/31 54
  55. 55. どこにデータサイエンティストはいるのか? データサイエンティスト 2. 文系理系は関係ない - 要は科学的方法に従ってデータを扱い、ビジネスに 貢献できる人材であることが重要であり、文系理系 どちらの出身でも問題ない - ただし、文系分野なら計量経済学や計量社会学・実 験心理学などの統計学の素養のある人の方がおそら く無難かもしれない 2013/8/31 55
  56. 56. どこにデータサイエンティストはいるのか? データサイエンティスト 3. 自分の「主観」よりも、データの「客観」を優先でき る人であること - そもそも科学的方法に従ってデータを扱い、 ビジネスに貢献することが求められている - もし、自分の主観に合わないデータだと思って、 勝手に改竄・捏造したら…? - 万一それが経営に直結するような大事な施策を決 めるような代物だったら、会社が傾いて沢山の同 僚を路頭に迷わせかねない! - データサイエンティストの仕事はデータの「客 観」を扱うことであり、自分の「主観」を持ち込 むことではない 2013/8/31 56
  57. 57. 本日のお品書き  データサイエンティストの新・3要素  データサイエンティストは2系統に分かれる  どこにデータサイエンティストはいるのか  実際にデータサイエンティストはどのような仕事をしているのか 2013/8/31 57
  58. 58. 本日のお品書き 3要素! うおおおおおお? ※PFI比戸様より承諾を頂いております 2013/8/31 58 データサイエンティスト データサイエンティスト )),(1( 1   n k kikki Kyy xx データサイエンティスト マネージャー うおおおおおお たのんだよー ふたりはデータサイエンティスト )),(1( 1   n k kikki Kyy xx
  59. 59. 実際にデータサイエンティストはどのような仕事をしているのか データサイエンティスト マネージャー ランダムフォレストetc.の結果から言うとAですね 棒グラフにして時期別にしてみました 分かりました、資料を用意していきますね! どれくらい違うか分かりやすい図にできます? アプリA, B, C, どれが一番新規UUにウケてます? 他にも色々言えることありそうですね、 戦略マーケMTGで話してくれます? ※尾崎のCA時代の日常風景をだいたい反映しています 2013/8/31 59
  60. 60. 実際にデータサイエンティストはどのような仕事をしているのか 尾崎の前職であるCA時代の事例をご紹介いたします (※現職の事例については上からの許可がまだ出ておりませんので…) (※※5月の講演会で既に公開済みの内容からそのまま抜粋しております) 2013/8/31 60
  61. 61. 実際にデータサイエンティストはどのような仕事をしているのか データサイエンティスト (尾崎) 戦略マーケ会議 データサイエンティスト (尾崎) うおおおおおお 数値の共有 検証すべき仮説の設定 分析ゴールの決定 最適な分析手法の選定 仮説を検証した結果の可視化 レポート作成&口頭で報告 このKPIの 貢献度は… 今月の数字 なんだけど… 2013/8/31 61
  62. 62. 実際にデータサイエンティストはどのような仕事をしているのか データサイエンティスト (尾崎) データ分析環境 - データマイニング - R, Python, Matlab - DB基盤 - Hadoop + Hive データサイエンス手法 - 機械学習 - 決定木、ロジスティック回帰、SVM、 ランダムフォレスト、アソシエーション分析、 グラフィカルモデルetc. - 計量時系列分析 - ARIMA、VAR、VECM、SETAR、 マルコフ転換モデルetc. 2013/8/31 62
  63. 63. 実際にデータサイエンティストはどのような仕事をしているのか ちなみに、どんなデータ分析をやっていたのか? 2013/8/31 63
  64. 64. 実際にデータサイエンティストはどのような仕事をしているのか ユーザーID ゲーム1 ゲーム2 ゲーム3 SNS 1 SNS 2 PF 1 PF 2 定着or離脱 1001 1 0 1 1 1 1 1 定着 1002 1 0 0 0 0 0 1 離脱 1003 1 0 1 1 0 0 0 離脱 1004 1 1 0 1 1 1 0 定着 ... ... ... ... ... ... ... ... ... ユーザーID+素性(そせい)ベクトル+分類ラベル ユーザー行動ログをHiveで取ってきて、 前処理をかけて以下のように直す。 2013/8/31 64
  65. 65. 実際にデータサイエンティストはどのような仕事をしているのか ユーザーID ゲーム1 ゲーム2 ゲーム3 SNS 1 SNS 2 PF 1 PF 2 定着or離脱 1001 1 0 1 1 1 1 1 定着 素性=学習データ 正解 ラベル 教師あり機械学習で 1) 分類&貢献度の高い指標の特定 2) 未来データの予測 などの高度な分析が可能! (※ロジスティック回帰、ランダムフォレスト等) 2013/8/31 65
  66. 66. 実際にデータサイエンティストはどのような仕事をしているのか 2013/8/31 66
  67. 67. 実際にデータサイエンティストはどのような仕事をしているのか ヘビー定着 ライト定着 即離脱 アソシエーション分析 + グラフィカルモデルで可視化 プラットフォーム上での 行動パターン 2013/8/31 67
  68. 68. 実際にデータサイエンティストはどのような仕事をしているのか  詳しい事例についてはこちらの書籍をご参照ください! 2013/8/31 68
  69. 69. 以上、データサイエンティストの「実像」を見てきました 3要素! うおおおおおお? ※PFI比戸様より承諾を頂いております 2013/8/31 69 データサイエンティスト データサイエンティスト )),(1( 1   n k kikki Kyy xx データサイエンティスト マネージャー うおおおおおお たのんだよー ふたりはデータサイエンティスト )),(1( 1   n k kikki Kyy xx
  70. 70. 最後に データサイエンティスト データサイエンティストの皆さん、 ともに頑張りましょう! そしてまだデータサイエンティストでは ないと(ご自分では)考えておられる皆 さん、今からデータサイエンティストに なっちゃいましょう! 2013/8/31 70

×