Your SlideShare is downloading. ×
データ分析というお仕事のこれまでとこれから(HCMPL2014)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

データ分析というお仕事のこれまでとこれから(HCMPL2014)

36,496
views

Published on

ハッカーズチャンプルー2014でお話してきた内容です。「データサイエンティスト(カナ)はオワコン」 …

ハッカーズチャンプルー2014でお話してきた内容です。「データサイエンティスト(カナ)はオワコン」
http://hackers-champloo.org/program.html

Published in: Data & Analytics

0 Comments
147 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
36,496
On Slideshare
0
From Embeds
0
Number of Embeds
28
Actions
Shares
0
Downloads
0
Comments
0
Likes
147
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. データ分析というお仕事の これまでとこれから ~オワコンになった「データサイエンティスト」の 向こう側に見えるもの~ 株式会社リクルートコミュニケーションズ データサイエンティスト 尾崎 隆 (Takashi J. OZAKI, Ph. D.) 2014/7/12
  • 2. 一応、自己紹介を… 尾崎 隆 (Takashi J. OZAKI, Ph.D.)  “J”に深い意味はありません  学者だった頃に同業界にT. Ozakiさんがいたので  と思ってJをつけたら、別業界にT. J. Ozakiさんが… 2014/7/12 1
  • 3. 一応、自己紹介を… 前職は「脳科学者」(認知神経科学者) 2014/7/12 2
  • 4. 一応、自己紹介を… こういうキャリアをたどっております  1997~2001年 東京大学工学部計数工学科 (※情報工学系)  2001~2006年 東京大学大学院新領域創成科学研究科 修士&博士課程(脳科学)  2006~2011年 理化学研究所脳科学総合研究センター 研究員(脳科学)  2011~2012年 東京大学教養学部 特任研究員(心理学)  2012年4月 慶應義塾大学医学部 特任助教(産学連携)  2012年6月 サイバーエージェント入社  2013年7月 リクルートコミュニケーションズ入社 2014/7/12 3
  • 5. 一応、自己紹介を… こういうことをしていました  2003~2006年 機能的MRIを用いたヒト脳研究 (有力なノーベル賞候補として知られ、 機能的MRIを発明した小川誠二先生 の研究所にて研修生として共同研究を していました)  2006~2011年 脳信号に対する計量時系列分析を用いた ネットワーク解析  2011~2012年 脳信号に対する上記ネットワーク解析+ SVMを用いた脳活動分類 2014/7/12 4
  • 6. 一応、自己紹介を… 現在は… 2014/7/12 5
  • 7. 本日お話すること 1. 「データサイエンティスト」はかくしてオワコンになった 2. データ分析の「二極化」と”Data Scientist”化 3. 今後は改善「レイヤー」ごとに合わせたデータ分析の 重要性が増していく 4. 現在最もホットなデータ分析手法たち 2014/7/12 6
  • 8. 2014/7/12 7 1 「データサイエンティスト」は かくしてオワコンになった
  • 9. 全てはここから始まった 2014/7/12 8 “Data Scientist: The Sexiest Job of the 21st Century” Thomas H. Davenport and D.J. Patil, Harvard Business Review, Oct 2012 (データサイエンティスト:21世紀で最もセクシーな職業) 大変有名な売り文句ですね
  • 10. データサイエンティスト=スーパーマン? 2014/7/12 9 データマイニング スペシャリスト アナリストor レポーティングスペシャリスト コンサルタントor マーケッター 3つの要素を全て兼ね備える データサイエンティスト
  • 11. ところが… 2014/7/12 10 “Data Scientist: The Sexiest Job of the 21st Century” Thomas H. Davenport and D.J. Patil, Harvard Business Review, Oct 2012 (データサイエンティスト:21世紀で最もセクシーな職業) 実は1年半以上も前の話
  • 12. スーパーマンなんてそうそうはいない 2014/7/12 11 データマイニング スペシャリスト アナリストor レポーティングスペシャリスト コンサルタントor マーケッター 3つの要素を全て兼ね備える データサイエンティスト? ITエンジニア・研究者・専門家 いやいやそんなうまい話ある わけないし、そんな奴見たこ とないよー。金儲けのためと 思ってデタラメ言ってない? そもそもサイエンスなん てしないでしょ
  • 13. 門戸を広げるために、条件を緩くする動きも… 2014/7/12 12 データマイニング スペシャリスト アナリストor レポーティングスペシャリスト コンサルタントor マーケッター 3つの要素のどれか1つでもあればOKなら、 データサイエンティストがいっぱい! OR OR ♪♪ ♪
  • 14. 「誰でもデータサイエンティスト?」という困惑 2014/7/12 13 周囲の声 それはもはやデータサイエ ンティストでも何でもない のでは… ??? 3つの要素のうち1つしか備えない データサイエンティスト? データマイニング スペシャリスト アナリストor レポーティングスペシャリスト コンサルタントor マーケッター OR OR
  • 15. ベンダー(アウトソース)側の二重の思惑も 2014/7/12 14 「誰でもデータサイエン ティスト♪」と全力でPR ♪♪ ♪ 周囲の声 結局儲けたいだけちゃうんか… 「○○社提供のデータサイエ ンティスト講座なら△週間で 全てをマスターできる!」 キリッ + ドン引き
  • 16. そして「データサイエンティスト」はオワコンになった 2014/7/12 15 まだまだ上り調子 既に低迷… “Data Scientist”は伸びていくのに、 「データサイエンティスト」は下り坂… Googleトレンドによれば…
  • 17. 「データサイエンティスト=オワコン」なのです 2014/7/12 16 周囲の声 結局研究してるわけでも何でも ないらしいしー データサイエンティスト という名のオワコン かと言ってエンジニアみたいに 堅実な仕事してる風もないしー と思えば凄い仕事してるわけで もなくてイメージばかり吹聴し てるだけっぽいしー 要は中身がないものをマスコミ とベンダーが騒いで終わっただ けだよねー
  • 18. 2014/7/12 17 2 データ分析の「二極化」と”Data Scientist”化
  • 19. スーパーマンよりも現実的な解=「三位一体」  より現実的な「三位一体」説  スーパーマンなんて無理  3つの役割を例えば3人で分担  チームで揃えば「1つの完成したデータ サイエンティスト像になる 2014/7/12 18 データサイエンティスト ・・・三位一体!
  • 20. 実際によく見られる「三位一体」型チーム構成の例 2014/7/12 19 統計学・機械学習の 学術的スキル コンサルタントorマーケッター orアナリストとしてのスキル プログラミング・DB・インフラ 等IT基盤技術スキル KPI1を上げるためには○○! )),(1( 1   n k kikki Kyy xx データ分析チーム
  • 21. 2014/7/12 20 スキル以外にも分けられる要因がある
  • 22. そもそも「データ分析」は二極化しつつある 2014/7/12 21 • スパムフィルタ・レコメンドシステ ム・広告最適化配信・異常値検出な ど、アウトプットが定量的なもの 「システム開発・実装」 アルゴリズム 実装 • 事業改善・投資効果予測・現況分析 レポート・市場動向予想など、アウ トプットが定性的なもの 「データコンサルティング」 アドホック 分析
  • 23. 二極化が進むにつれて起きていること 2014/7/12 22 統計学・機械学習の 学術的エキスパート プログラミング・DB・インフラ 等IT基盤技術エキスパート そこで、こういう合従連衡が起きる )),(1( 1   n k kikki Kyy xx
  • 24. 二極化が進むにつれて起きていること 2014/7/12 23 統計学と機械学習とIT技術全てに通じて レポートがアウトプットになる系 統計学と機械学習とIT技術全てに通じて システム構築がアウトプットになる系 これらの2パターンを名付けて… )),(1( 1   n k kikki Kyy xx 「レポート主体なら この環境がいいよね」 「システム組むなら この環境かなぁ」 「ここは共通」
  • 25. 「アドホック分析系」vs.「アルゴリズム実装系」 2014/7/12 24 アルゴリズム実装系 データ分析者 )),(1( 1   n k kikki Kyy xx アドホック分析系 データ分析者 共通スキル
  • 26. 2014/7/12 25 ところで、なぜ「サイエンティスト」なのか?
  • 27. 日本では「データ分析する人」⇔「データサイエンティスト」 2014/7/12 26 ※日本でよく聞かれるイメージ 「データサイエンティスト」になる データ分析を マスターすると…
  • 28. HBRの論説でDavenportはこう指摘している 2014/7/12 27 Perhaps it's becoming clear why the word "scientist" fits this emerging role. Experimental physicists, for example, also have to design equipment, gather data, conduct multiple experiments, and communicate their results. (「サイエンティスト」という語がこの新たな職業にふさわしい理由は、 おそらくおいおい明らかになるだろう。 例えば実験物理学者はデータ分析者同様に測定系をデザインし、データを 集め、複数の実験を遂行し、その結果を第三者に伝えなければならない)
  • 29. 「サイエンティスト」がデータ分析をやるからこそ! 2014/7/12 28 ※これがHBRが示したイメージ データ「サイエンティスト」になる! サイエンティストがデータ 分析をやるからこそ…
  • 30. 本場USでは「サイエンティスト」からの転向組が多い 2014/7/12 29 Insight Data Science Fellowship Program http://insightdatascience.com/ (様々な分野のPh.D.取得者に統計 学・機械学習・IT基盤技術を6週間 で叩きこんでData Scientistへと生 まれ変わらせる養成コース) New York University Master of Science of Data Science http://cds.nyu.edu/academics/ ms-in-data-science/ (2年間の修士課程で統計学・機械 学習・IT基盤技術・経済学・金融 工学などを学べる。業界トップの教 授陣が揃う。社会人入学も可能) ※海外にはこの他にも 多くの養成課程がある
  • 31. 日本でも近い分野からの「サイエンティスト」参入が増加中 2014/7/12 30 アルゴリズム実装系 )),(1( 1   n k kikki Kyy xx アドホック分析系 共通スキル 実験科学、生態学、経済学、 社会学、心理学… etc. 計算機科学、情報工学、 数理科学… etc.
  • 32. ようやく日本でも”Data Scientist”に近付きつつある 2014/7/12 31 アルゴリズム実装系 )),(1( 1   n k kikki Kyy xx アドホック分析系 共通スキル 実験科学、生態学、経済学、 社会学、心理学… etc. 計算機科学、情報工学、 数理科学… etc.
  • 33. 元となる「サイエンティスト」は色々なところにいる 2014/7/12 32 Data Scientist 新卒学生 (修士・博士・ 一部の学士) 研究者 (大学・研究機関・ 大手中央研究所) 社内高スキル人材 (エンジニア・アナリスト・そ の他向学心の強い社内人材)
  • 34. 文系・理系、はたまたバックグラウンドは関係ない 2014/7/12 33 Data Scientist 新卒学生 (修士・博士・ 一部の学士) 研究者 (大学・研究機関・ 大手中央研究所) 社内高スキル人材 (エンジニア・アナリスト・そ の他向学心の強い社内人材) 文系・理系は関係ない (科学的方法が使える・親和性のある人材であればバック グラウンドは不問) 専門的教育を受けていなくても大丈夫 (サイエンティスト=研究者であれば独学で新分野を切り 拓くのはごく普通のこと)
  • 35. では、「サイエンティスト」だけ採用すればいいのか? 2014/7/12 34 ETL・前処理 表計算・クロス集計 レポーティング データ分析言うても小難しいことばかりではおまへんで~
  • 36. むしろ敷居を下げるべきは「データ分析」という営みそのもの 2014/7/12 35 ETL・前処理 表計算・クロス集計 レポーティング 助かる~ 各領域のエンジニア マーケッター プランナー マネージャー Data Scientistなデータ分析者 これぐらいのデータ分析 だったら簡単なんだし、 専門家に任せきりにせず 自分たちでもやろう!
  • 37. 大事なポイントを再確認 2014/7/12 36 誰でも「データサイエンティスト」になれる 誰でも「データ分析」はできる
  • 38. データ分析は全員参加、厳密性はサイエンティストの仕事 2014/7/12 37 生データ データベース DWH / DMP Data Scientistな データ分析者 データ分析の アウトプット みんなのやり方、 正しいかな?
  • 39. ※今後どのような業界がデータ分析者を必要とするのか アドテク ソシャゲ 金融 コンサル メディア Tech系 スタートアップ Eコマース 流通 製薬 2014/7/12 38 特にデータ分析が 求められている業界
  • 40. ※今後どのような業界がデータ分析者を必要とするのか • レコメンダーシステム • サイト面のA/Bテスト、 多腕バンディット Eコマース • 課金イベントの個々のユー ザー単位での最適化 • 最適ゲームレベル設定 ソシャゲ 2014/7/12 39
  • 41. ※今後どのような業界がデータ分析者を必要とするのか • SSP / DSP • DMPによるユーザー単位最適広告配信 • 広告予算ポートフォリオ最適化 アドテク • キュレーションサービス(レコメン ダーシステムなど) • 画像認識、音声認識、自然言語処理など Tech系 スタート アップ 2014/7/12 40
  • 42. ※今後どのような業界がデータ分析者を必要とするのか • 既存メディア広告の最適化 • 視聴者情報に基づくサービス開発 メディア • データに基づく経営意思決定支援 • データ管理システム導入 コンサル • 「クオンツ」 • 「アクチュアリー」 金融 • 流通コスト最適化 • 在庫の最適管理流通 • 治験データ分析製薬 2014/7/12 41
  • 43. 日本に”Data Scientist”が根付くのはこれから 2014/7/12 42 カタカナの「データサイエンティスト」は 残念ながらオワコン 今後はグローバルの”Data Scientist”へ 日本もシフトしていく必要がある そのためには日本とグローバルの双方 でのデータ分析の二極化に適応すべき 「サイエンティスト」を採用し、一方でデータ分析 カルチャー自体を広い職種に普及させる努力が必要
  • 44. 2014/7/12 43 3 今後は改善「レイヤー」ごとに合わせた データ分析の重要性が増していく
  • 45. そもそもマーケティングにおけるデータ分析とはどういう営みなのか 2014/7/12 44 事業側が 何かしらの 問題に直面 ↓ 問題解決の ために何か アクションを したいという 流れになる データ分析 によって どうやって 問題解決を 実現すべきか を検討・実行 ↓ 定量的or定性的 アウトプットで 実際に問題解決 アルゴリズム 実装 直接カスタマー に働きかけ アドホック 分析 施策投入の 形で改善 事業
  • 46. 様々なレイヤーごとに必要なデータ分析は異なる 2014/7/12 45 認知獲得がメイン 潜在的に顧客となり得る層をマ スレベルで獲得する 広告戦略や広告そのものの最適 化がメイン こちらのビジネス圏内に顧客を 取り込む 個々の顧客レベルでの消費行動 最適化がメイン こちらのビジネス圏内での顧客 行動への働きかけを行う 潜在顧客 レイヤー 集客・送客 レイヤー 消費行動 レイヤー
  • 47. レイヤーごとに得られる潜在的利潤の規模は大きく異なる 2014/7/12 46 100 集客・送客レイヤー 消費行動レイヤー 潜在顧客レイヤー
  • 48. 潜在顧客レイヤーに有効なデータ分析 2014/7/12 47 100 潜在顧客レイヤー 予算ポートフォリオ 最適化
  • 49. 集客・送客レイヤーに有効なデータ分析 2014/7/12 48 70 集客・送客レイヤー 50 サイト導線の 最適化による 集客効率化 オーディエンスターゲティングの 機械学習による最適化
  • 50. 消費行動レイヤーに有効なデータ分析 2014/7/12 49 65 60 動的な面生成などに よるユーザー別コン テンツの最適化 レコメンデーションなどサイト内行動 パラメータの機械学習による最適化 消費行動レイヤー
  • 51. フローは共通、レイヤーごとに最適なデータ分析の適用を 2014/7/12 50 基本的にはどのようなレベルのデータ分析 でもフロー自体は同じ レイヤーの規模ごとにデータ分析の アプローチ自体は異なってくる アルゴリズム実装・アドホック分析のど ちらもレイヤーごとに向き不向きがあり、 その使い分けが重要
  • 52. 2014/7/12 51 4 現在最もホットなデータ分析手法たち
  • 53. データ分析手法と言えば… 2014/7/12 52 統計学 機械学習
  • 54. それぞれでよく知られていそうなものを挙げると… 2014/7/12 53 t検定 サポートベクターマシン(SVM) カイ二乗検定 重回帰分析 分散分析 ランダムフォレスト ナイーブベイズ
  • 55. 2014/7/12 54 これらは割と昔からある手法、 今現在注目されている手法は?
  • 56. あくまでも限られた例として挙げると… 2014/7/12 55 ベイジアンモデリング word2vec
  • 57. 2014/7/12 56 ベイジアンモデリング
  • 58. ベイジアンモデリング:CVユーザー数vs.3種の広告 2014/7/12 57 CVユーザー数の時系列 3種の広告投下額の時系列
  • 59. ベイジアンモデリング:トレンドを伴う時系列 2014/7/12 58 重回帰分析を行っても、トレンドが表現できない
  • 60. ベイジアンモデリング: (MC)MCによるモデル推定 2014/7/12 59 Stan MCサンプラーを用いて、階層ベイズモデル に基づくベイジアンモデリングを行う
  • 61. ベイジアンモデリング:モデルの概要 2014/7/12 60 広告予算1 広告予算2 広告予算3 日次 CV数 a b c 正規線形モデル オフセット項d 累積トレンド項 cum_trend + ベイジアン モデリング トレンド項trend Σ
  • 62. ベイジアンモデリング:Stanコードによるモデル記述 2014/7/12 61 𝐶𝑉𝑡 = 𝑄𝑡 + 𝑐𝑢𝑚_𝑡𝑟𝑒𝑛𝑑 𝑡 𝑄𝑡 = 𝑎𝑥1𝑡 + 𝑏𝑥2𝑡 + 𝑐𝑥3𝑡 + 𝑑 + 𝜀𝑡 𝑡𝑟𝑒𝑛𝑑 𝑡 − 𝑡𝑟𝑒𝑛𝑑 𝑡−1 = 𝑡𝑟𝑒𝑛𝑑 𝑡−1 − 𝑡𝑟𝑒𝑛𝑑 𝑡−2 + 𝜀𝑡 𝑡𝑟𝑒𝑛𝑑 𝑡 = 𝑐𝑢𝑚_𝑡𝑟𝑒𝑛𝑑 𝑡 − 𝑐𝑢𝑚_𝑡𝑟𝑒𝑛𝑑 𝑡−1 (𝜀𝑡 ≈ 𝑁 𝜇, 𝜎 ) CVユーザー数を正規線形モデル+トレンドの和で表現した階層ベイズモデル
  • 63. ベイジアンモデリング:Stanコードによるモデル記述 2014/7/12 62 model { real q[N]; real cum_trend[N]; trend~normal(30,10); for (i in 3:N) trend[i]~normal(2*trend[i-1]-trend[i-2],s_trend); cum_trend[1]<-trend[1]; for (i in 2:N) cum_trend[i]<-cum_trend[i-1]+trend[i]; for (i in 1:N) q[i]<-y[i]-cum_trend[i]; for (i in 1:N) q[i]~normal(a*x1[i]+b*x2[i]+c*x3[i]+d,s_q); } 先ほどのモデル式をStanコードで記述するとこうなる
  • 64. ベイジアンモデリング:モデル当てはめ結果 2014/7/12 63 3種類の広告それぞれの 効果の比 相関係数 0.99 階層ベイズモデルにより、トレンドを表現した上で正確にモデリング
  • 65. ベイジアンモデリング:トレンドの推定 2014/7/12 64 階層ベイズモデルにより、トレンドを表現した上で正確にモデリング 相関係数 0.99
  • 66. 2014/7/12 65 word2vec
  • 67. word2vec: ニューラルネットワークによる自然言語処理  ニューラルネットワーク  古株の機械学習手法  分類の閾値関数が特徴的  近年Deep Learningの台頭と ともに多層化して復権  自然言語処理(NLP)  Natural Language Processing いわゆるテキストマイニング  文書データの要素抽出、分類、 特徴比較など多岐に渡る分野 2014/7/12 66
  • 68. word2vec: Googleが開発した革命児  極めて大ざっぱに言えば「単語の出現 した前後関係を徹底的にニューラル ネットワークでモデル化して、単語同 士の『類似度』を数値化」  従来の自然言語処理とは異なり、 「意味の構造」を足したり引いたりすら できる  “good”と”best”の数値的表現を 足して2で割った値に対応するのは、 何と”better”  (“woman” + “king”) – “man” はどうなる? “queen”という結果になる 2014/7/12 67 (Mikolov et al., HLT-NAACL, 2013)
  • 69. word2vec: 単語を「値」として表現できる  単語の意味の「度合い」を間隔尺度として表せる  形容詞の「基本形」~「最上級」を比較  きちんと間に「比較級」が入る!(上記)  異なる言語同士で単語間の関係性を一種の数値的なグラフ 構造として表せる  そのまま対訳グラフを作ることも可能 2014/7/12 68 (Kim et al., EMNLP, 2013)
  • 70. word2vec: 導入は非常に簡単  例えばPython上でも簡単に動く  “gensim”パッケージで実装  Cythonと組み合わせることで高速化  パッケージ化されているので、分かち書きされた 文書データさえあれば誰でも以下のようなコマ ンドで実行できる 2014/7/12 69 from gensim.models import word2vec data1 = word2vec.Text8Corpus('souseki_data.txt') model = word2vec.Word2Vec(data1, size=200) model.out=model.most_similar(positive=[u‘▲▲▲▲'])
  • 71. word2vec: 今回用いた学習データ  夏目漱石の作品(青空文庫より)  前期三部作  『三四郎』「うとうととして目がさめると…」  『それから』「誰か慌ただしく門前を…」  『門』「宗助は先刻から縁側へ坐蒲団を…」  後期三部作  『彼岸過迄』「敬太郎はそれほど験の見えな…」  『行人』「梅田の停車場を下りるや否や…」  『こゝろ』「私はその人を常に先生と呼んで…」  芥川龍之介  ロマン・ロラン 2014/7/12 70
  • 72. word2vec: 試しに漱石のデータで色々やってみる 2014/7/12 71 「文明」 「人生」 「人間」+「夢」 「人間」-「哲学」 物質 0.718787恋 0.894626気分 0.791552墓参り 0.713859 社交 0.713621思想 0.884692下等 0.779617旧友 0.712677 消極 0.684551健康 0.884444方法 0.767886死な 0.710786 笑い声 0.683901衝動 0.842681一般 0.745464墓参 0.70417 遠い 0.675898不可思議 0.823937自由 0.744742無意識 0.700065 相当 0.65385生前 0.819886器械 0.738353墓 0.676655 列車 0.646803意志 0.815782探偵 0.736964今頃 0.667586 宗教 0.645549義務 0.813765自然 0.734699気が付き 0.662352 具体 0.643558意義 0.808109平凡 0.732994後ろ 0.65725 午後 0.642242以外 0.807706純粋 0.730759対し 0.655573 類似語 元となる単語
  • 73. word2vec: 推定結果から作者の違いを読み取る 2014/7/12 72 夏目漱石 芥川龍之介 ロマン・ロラン 「人間」 「人間」 「人間」 人間らしく 0.760542金持 0.860284民主 0.762653 性質 0.743082急 0.854192自由 0.746544 矛盾 0.736668冠 0.845701空想 0.74299 必要 0.734184唯 0.826246人物 0.74182 消極 0.731387杜 0.813595絶対 0.737375 財産 0.727823ども 0.796918懐疑 0.730712 関係 0.722252春 0.788514賢明 0.730665 種類 0.721521ませ 0.776529民衆 0.728969 世間 0.71959もの 0.768472天才 0.720979 横着 0.717869なくなっ 0.76815独創 0.715607 類似語 元となる単語
  • 74. 2014/7/12 73 最後に
  • 75. このデータ分析のフローですが… 2014/7/12 74 生データ データベース DWH / DMP Data Scientistな データ分析者 データ分析の アウトプット みんなのやり方、 正しいかな?
  • 76. 来年にはもう時代遅れかも? 2014/7/12 75 生データ データベース DWH / DMP Data Scientistな データ分析者 データ分析の アウトプット みんなのやり方、 正しいかな?