Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性

16,384 views

Published on

2012年12月6日(木)に開催されEMCジャパン主催「第2回データサイエンティストワークショップ」での弊社社員の講演資料です。

Published in: Technology

データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性

  1. 1. Big data, Big innovation 次のイノベーションは、ビッグデータからデータサイエンティストとは?- そのスキル/ナレッジレベル定義の必要性 - 2012年12月6日 株式会社ブレインパッド 佐藤 洋行
  2. 2. 発表者プロフィール佐藤 洋行 − 株式会社ブレインパッド アナリティクスサービス部 ゼネラルマネージャー − データアナリストとして1年、プロジェクトマネージャー・ 営業として3年の業務を行った後、現在のポジション 受託分析の宣伝・提案・デリバーのすべてに主体と して関与してきました。 2
  3. 3. 会社プロフィール【商 号】 株式会社ブレインパッド(英文 BrainPad Inc.) (東証マザーズ 証券コード:3655)【住 所】 東京都品川区東五反田5-2-5 KN五反田ビル【設 立】 2004年3月18日(決算日6月30日)【資本金】 326,618,926円(2012年9月30日現在)【社員数】 117名( 2012年12月現在)【代表者】 草野 隆史【事 業】 アナリティクス事業 ソリューション事業 ASP関連事業 3
  4. 4. データの有効活用を支援するネットが普及する中で、今後蓄積される「大量データこそが、もっとも重要で潤沢な経営資源になる」という視点からこの分析活用の遅れは、重大な問題になると考えています。 蓄積可能なデータ量 拡 大 す る 合理的な/効率的な 意思決定の機会損失データ量 ギ ャ ッ プ 分析可能なデータ量 4 時間
  5. 5. 事業区分 マーケティング領域のデータ活用支援アナリティクス事業 ASP関連事業 ソリューション事業人的サービス ネットサービス システム販売企業の蓄積データの 分析技術を利用した CRM&分析ソフトの 分析業務の受託 サービスのASP提供 販売やシステム構築 5
  6. 6. 創業来の連続増収(単位:百万円) 売上高 2,000 1,946 1,750 1,500 1,347 1,250 直近4年は 1,000 906 40%以上の 750 647 高成長 500 420 368 250 130 0 2006年 2007年 2008年 2009年 2010年 2011年 2012年 6月期 6月期 6月期 6月期 6月期 6月期 6月期 6
  7. 7. 毎日、バラエティーに 富んだ多数の分析案件の お声掛けを頂いています・・・このままでは良くないな、 と感じていることがあります 7
  8. 8. はじめに 8
  9. 9. ビッグデータが話題 “GETTING CONTROL OF BIG DATA” Harvard Business Review 2012年10月号で特集された source: Harvard Business School Publishing., Oct 2012 9
  10. 10. ビッグデータが話題 “Data is king at Amazon” Matt Round (2004) 米アマゾン社の マーケティングディレクター source: Harvard Business School Publishing., Oct 2012 10
  11. 11. 2/3 11
  12. 12. HBR 2012年10月号 “GETTING CONTROL OF BIG DATA” 巻頭記事は、 ・ ビッグデータ ・ データサイエンティスト ・ 先進的分析フレームワーク source: Harvard Business School Publishing., Oct 2012 12
  13. 13. 4/5 13
  14. 14. 分析力を駆使する企業Davenport, Harris and Morison (2010) − 企業が分析力を駆使するために必要な要素を5つに 分解し、DELTAとして紹介している ・ Data ・ Enterprise ・ Leader ・ Target ・ Analyst 14
  15. 15. ビッグデータとは何か、どうやって収集するか 15
  16. 16. ビッグデータとは何か、どうやって収集するか・・・が問題ではない 16
  17. 17. (ビッグ)データはどう活用すれば良いのか ・・・が問題である 17
  18. 18. データサイエンティストは注目の職業 18
  19. 19. データサイエンティストは注目の職業 “The sexy job in the next 10 years will be statisticians” Hal Varian (Googleのチーフエコノミスト)NewYorkTimes 2009年8月5日付けの記事 19「For Today’s Graduate, Just One Word: Statistics」より
  20. 20. データサイエンティストは注目の職業 “If ‘sexy’ means having rare qualities that are much in demand, data scientists are already there.” Thomas H. Davenport and D.J. Patil (バブソン大学教授・HBS客員教授)Harvard Buisiness Review 2012年10月号の記事 20「 Data Scientist: The Sexiest Job of the 21st Century」より
  21. 21. Data Science Journal2002年4月創刊。1つ目の論文は、 “Development of the web-based NIST X-ray Photoelectron Spectroscopy (XPS) Database”整備されてきたデータベースをどう活用するかに焦点 21
  22. 22. 2002年 専門のジャーナルが創刊2009年 今後10年で最も魅力的な職業2012年 “今世紀”で最も魅力的な職業 22
  23. 23. データサイエンティストは需要過多 マッキンゼー研究所によると、 2018年までに、 米国だけでデータ分析官が “14万人~19万人不足する” だろう、とのこと。 source: McKinsey Global Institute, May 2011 23
  24. 24. 2002年 専門のジャーナルが創刊2009年 今後10年で最も魅力的な職業2012年 “今世紀”で最も魅力的な職業 ・・・不足してる? 24
  25. 25. データサイエンティストはどこにいる? Davenport and Patil (2012) ビッグデータから利益を得るた めにデータサイエンティストを 雇う必要があるとして、マネー ジャーがやらなければならない のは・・・ source: Harvard Business School Publishing., Oct 2012 25
  26. 26. データサイエンティストはどこにいる? Davenport and Patil (2012) ・ 彼らの能力を特定(定義) し、 ・ 企業に興味を持たせ、 ・ 生産的に働いてもらう ことだ。 source: Harvard Business School Publishing., Oct 2012 26
  27. 27. データサイエンティストに定義がない? 27
  28. 28. データサイエンティストに定義がない Davenport and Patil (2012) まず、データサイエンスの学位 を提供する大学はない。 そして、組織の中のある役割が データサイエンティストである、 ということもほとんどない。 source: Harvard Business School Publishing., Oct 2012 28
  29. 29. データサイエンティストに定義がない Davenport and Patil (2012) データサイエンティストを得る ための最初のステップは・・・ ビジネスにおいて彼らが どのようなことを成すのかを 知ることだ。 source: Harvard Business School Publishing., Oct 2012 29
  30. 30. データサイエンティストの仕事とは? 30
  31. 31. CRISP-DMCross-Industry Standard Process for Data Mining − DaimlerChrysler, NCR, OHRA, SPSSなどが参加する コンソーシアムで開発された方法論 − データマイニングプロジェクトを進める標準的な手順が 6つのフェーズに分解されている フェーズ1: ビジネスの理解(Buisiness Undertanding) フェーズ2: データの理解(Data Undertanding) フェーズ3: データの準備(Data Preparation) フェーズ4: モデルの作成(Modeling) フェーズ5: モデルの評価(Evaluation) フェーズ6: モデルの展開(Deployment) 31
  32. 32. KDD processThe Knowledge Discovery in Databases process − Fayyad et al. (1996) によってまとめられたデータ マイニングのプロセス − データマイニングにより知見を導き出すための手順を 以下の5つにまとめている ステージ1: データセットの選択(Selection) ステージ2: データの前処理(Pre-processing) ステージ3: データの変換(Transformation) ステージ4: データマイニング(Data Mining) ステージ5: 解釈と評価(Interpretation/Evaluation) 32
  33. 33. SEMMASample, Explore, Modify, Model and Assess − SASにより構築された、5つのステップからなるデータ マイニングツールの導入手順 − 現在では、データマイニングの一般的な方法論と みなされることも多い ステップ1: データサンプリング ステップ2: データ間の関係性などの探索と理解 ステップ3: 変数の選択・合成・変換(モデリングの準備) ステップ4: モデルの作成 ステップ5: モデルの(信頼性や有用性の)評価 33
  34. 34. Proceedings of the IADISAzevendo and Santos (2008) − KDD process と SEMMA は殆ど同一 − CRISP-DM はそれらに加え、前提となる知識と目的 達成のための有効化を求めている点で、より完璧な 方法論だと考えられる KDD SEMMA CRISP-DM --- --- Buisiness Understanding Selection Sample Data Understanding Pre processing Explore Transformation Modify Data Preparation Data mining Model Modeling Interpretation/Evaluation Assessment Evaluation --- --- Eployment 34
  35. 35. Proceedings of the IADISAzevendo and Santos (2008) − ただし、結局は KDD process でも、SEMMA でも、 データの選択・準備や解釈・評価の段階について、 ビジネス展開を考えずに実行することは不可能。 − その意味では、すべてが同じプロセスを含んでいると 言える。 35
  36. 36. データサイエンティストの仕事とはAzevendo and Santos (2008) − ただし、結局は KDD process でも、SEMMA でも、 データの選択・準備や解釈・評価の段階について、 ビジネス展開を考えずに実行することは不可能。 − その意味では、すべてが同じプロセスを含んでいると 言える。 「ビジネスの理解」に基づいて分析し、 結果を「施策連携」させることが要 36
  37. 37. 分析力を駆使する企業Davenport, Harris and Morison (2010) − 企業が分析力を駆使するために必要な人的リソースと して、「分析リーダー」と「アナリスト」を挙げ、その仕事 内容について記載している 分析リーダー: 強い影響力を持ち、人員や予算や時間 を投じる権限もあり、これらを行使して 分析に基づく意思決定を奨励する アナリスト: 統計的手法、精度の高い定量・定性 分析、情報モデリング技術などを使って 意思決定を行う 37
  38. 38. What is data science?Mike Loukides (2010) ※ O’Reilly Media,Inc. のバイスプレジデント − 現在、多くの場面で求められるようになったデータの有 効活用について、伝統的な統計解析との違いを以下の ように述べている 統計解析とデータサイエンスを区別するの は、後者は全体論的なアプローチをとるという ことだ。いたるところでデータを手に入れる 機会が増え、データサイエンティストはデータ を収集し、分析に適した形に整え、データにス トーリーを語らせ、そのストーリーを他者に伝え ている 38
  39. 39. 1996年 データ活用の方法論確立2010年 ビジネスでの活用事例まとめ データサイエンスの再定義 39
  40. 40. データサイエンスの実際 40
  41. 41. Buisiness Understanding(あらゆる)ビジネスに精通しているデータサイエンティストはいない − 分析を受託して行う会社であればスポンサー部署から − 分析部署であれば戦術・施策を立案する部署から 徹底的なヒアリングを行わなければならない ・・・が、分析分野が得意なデータサイエン ティストには、性質的にヒアリングが得意 な人材が少ない 41
  42. 42. Data Understanding実際に企業に蓄積されているデータに整然としたものはない − 日々進歩するH/W、それに合わせて変わりゆくデータ − 一方でマーケティングデータは未だにExcel管理という 企業も多い − データを管理する部署(場合によっては複数)から徹底 的なヒアリングを行わなければならない ・・・質問は比較的シンプルだが、関係部署 が多い場合や、データの歴史が古い 場合は、誰に聞けば良いか分からない ことがしばしば 42
  43. 43. Data PreparationSQL系のDataBaseだけでも複数種が存在、分散処理も必要となってきている − しっかりインデックス整備する?ある程度で処理して しまった方が早い?Hadoop利用すべき? − データの処理はどこで行う?新たに分析用DB構築 すべき? 多数の選択肢の中から可能な限り最善の選択をしなけれ ばならない ・・・すべてに精通することは極めて難しい 43
  44. 44. ModelingH/Wの処理能力、分析手法、分析ツールは日進月歩、ビジネスの状況も常に変化している − 仮定すべき分布は?手法は重回帰/決定木/・・・? ベイズ系の手法の方が良い? − 課題の設定は正しかった?ビジネスインパクトは? 短い時間に様々な可能性を考慮し、正しい課題設定を して、正しい手法を適用して、結果を出さなければ ならない ・・・複数の分析手法・ツールを利用した 経験のあるデータサイエンティストは 少ない。また、まずはやらなければ 分からない部分もある。 44
  45. 45. Evaluationビジネスにおいては、テストのために一つだけの施策を行う期間を設けるのは非常に難しい。 − バックテストだけで十分か?他の施策への影響は シミュレーション可能か? − 実験が必要であれば、どのような規模で、どのような 対象に行うべきか? 正しい評価を行うだけでも、テクニックが必要となる ・・・経験がないと見落としてしまう落とし穴も 存在する 45
  46. 46. Deployment関係部署を動かすのは分析結果だけではない。ビジネスパーソンとしての調整力が問われる。 − 分析結果から導き出される取るべき戦術/行うべき 施策は現実的で、実行するだけの価値があるか? − それらを関係部署(特に決定権者)に如何に伝え るべきか? フェーズ1の「ビジネス理解」とセットで、ビジネスに有用な 戦術/施策に連携させることが求められる。誰に伝える べきか、という選択も含め、ビジネスパーソンとしての力が必要と なる ・・・が、分析分野が得意なデータサイエンティ ストには、性質的にヒアリングが得意な人材 が少ない 46
  47. 47. データサイエンティストのスキル/ナレッジレベル定義の必要性 47
  48. 48. データサイエンティストは存在するのか Davenport and Patil (2012) データサイエンティストは、 ・ データハッカー ・ 分析者 ・ 伝達者(コミュニケーター) ・ 信頼できる相談役 の複合体と考えられる。 ・・・が、そんな人は殆どいない source: Harvard Business School Publishing., Oct 2012 48
  49. 49. データサイエンティストは存在するのかDavenport, Harris and Morison (2010) − 分析リーダーの行動や姿勢には、企業のトップであれ現場の 社員であれ、共通する特徴が認められる。ここに挙げるすべ ての特徴を備えている人はいないし、どの特徴をとくに強く 備えているかは人によって当然違う  コミュニケーション能力を高める  データに基づく意志決定を要求する  有能な人材を採用し、評価する  模範を示す  結果に責任を持つ  教える  戦略を立て、目標を掲げる ・・・ 49
  50. 50. 組織としてのデータサイエンティスト• 異なるビジネス領域が得意なデータサイエンティスト• 異なるプロセスに精通したデータサイエンティスト• コミュニケーション能力の高いデータサイエンティスト適切に混成された組織が構築できれば、組織としてこのような人格になれるかも・・・「完全なデータサイエンティスト」 50
  51. 51. 組織の構築に必要なもの今、何が課題なのか今、分析でそれを解決するに当たって、どのような人材が存在(不足)しているのか ・・・答えられそうですか? 51
  52. 52. データサイエンティストのスキル/ナレッジレベル定義の必要性 業界の健全な発展に向けて 52
  53. 53. 業界の健全な発展に向けて• スキル要件定義/標準化が行うことにより、どの データサイエンティストがどの分野/プロセスを 得意とするか明らかにすべきでは? – 現在解決すべき課題に対して不足している 人材を明らかにする – 外注時/採用時の需要と供給のミスマッチを防ぐ 53
  54. 54. 業界の健全な発展に向けて• 認定制度(既存のものの利用も含め)などは 作れないか? – 業界として人材の品質を保証する – データサイエンティストを志す後進の学習を促す 54
  55. 55. 業界の健全な発展に向けて• スキル要件定義/標準化が行うことにより、どのデータサイエンティ ストがどの業務を得意とするか明らかにすべきでは? – 現在解決すべき課題に対して不足している人材を明らかにする – 需要と供給のミスマッチを防ぐ• 認定制度(既存のものの利用も含め)などは作れないか? – 業界として人材の品質を保証する – データサイエンティストを志す後進の学習を促す特定の企業が決めるのではなく、業界全体として団体を作るなどして健全な発展を目指す必要性があると考えます。 55
  56. 56. データサイエンティスト協会(仮称)(まずは)複数社で構成する社団法人設立を予定。会員募集に当たっては、広く門戸を開き、関連団体/学会とも積極的に関わる。 56
  57. 57. データサイエンティスト協会(仮称)設立準備のためのfacebookページhttp://www.facebook.com/DataScientist.jp「いいね!」お願いします! 57
  58. 58. データサイエンティスト協会データサイエンティストの定義を考えるグループhttps://www.facebook.com/groups/datascientist.jp/興味のある方、ご連絡お待ちしております。 58
  59. 59. ご清聴ありがとうございました 59

×