Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

(道具としての)データサイエンティストのつかい方

9,756 views

Published on

2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料
Ustreamの録画はこちらです→ http://www.ustream.tv/recorded/30518257

Published in: Technology

(道具としての)データサイエンティストのつかい方

  1. 1. PFIセミナー  2013/03/28 (道具としての)データサイエンティストの つかい⽅方 株式会社Preferred Infrastructureリサーチャー&Jubatusチームリーダー ⽐比⼾戸  将平
  2. 2. ⾃自⼰己紹介l  ⽐比⼾戸将平(HIDO Shohei)l  TwitterID: @slal  専⾨門:データマイニング、機械学習l  経歴: l  2006-2012: IBM東京基礎研究所データ解析グループ l  機械学習(特に異異常検知)のアルゴリズム研究開発 l  お客様案件でデータ解析プロジェクトに従事 l  2012-: 株式会社プリファードインフラストラクチャー l  ⼤大規模オンライン分散機械学習基盤Jubatusチームリーダーl  趣味 l  京都(京都検定三級) l  寺社仏閣巡り(⻄西国・洛洛陽三⼗十三観⾳音霊場満願) l  茶茶道(裏裏千家) 2 l  野外⾳音楽フェス(フジロック⾏行行きたい!!!)
  3. 3. Jubatus on Fire!l  NHK Worldで開発ドキュメンタリー番組が全世界配信l  Hadoop Summit 2013でのプレゼンテーション決定l  4/15 19:00- 第2回Jubatusハンズオン(詳細はpartake)
  4. 4. Agendal  データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  5. 5. 去年年9⽉月の第⼀一部「つくり⽅方」:16,000views超え
  6. 6. (参考)データサイエンティストのつくり⽅方 5 理理想のデータサイエンティスト , 4 , 20% R/Matlab/ 15% 3 2 Weka 1 0 , , 25% 20% Hadoop/ NoSQL BI R DWH/BI/ , 5% , 15%タイプ別スキル トレーニング分類
  7. 7. Google Trendsによる検索索⼈人気度度:前回時の⼈人気度度に⽐比べると今は5倍l  検索索キーワード“データサイエンティスト”l  “ビッグデータ” 7
  8. 8. Google Trendsによる検索索⼈人気度度:前回時の⼈人気度度に⽐比べると今は5倍l  検索索キーワード“データサイエンティスト”l  “ビッグデータ” + “Obama” 8
  9. 9. ビッグデータ、データサイエンティスト、統計学l  “Data Scientist: The Sexiest Job of the 21st Century” l  Thomas H. Davenport & D.J. Patil, Harvard Business Reviewl  “Sexy Little Numbers”:Amazonマーケティング部⾨門第⼀一位 l  邦題:データ・サイエンティストに学ぶ「分析⼒力力」l  “統計学が最強の学問である”:12万部l  週刊ダイヤモンド 2013/3/30号  :特集“最強の武器「統計学」”l  ⽇日経新聞2013/3/26朝刊:”⼤大量量データ  経営に⽣生かす” l  “「データサイエンティスト」に脚光  航空機制御・広告効果など分析”
  10. 10. データサイエンティスト協会(仮)l  https://www.facebook.com/DataScientist.jp
  11. 11. 究極のデータサイエンティスト vs. ⾄至⾼高のデータサイエンティストl  http://d.hatena.ne.jp/EulerDijkstra/20130315/1363318205l  お題:⼩小売スーパーのデータ活⽤用l  究極側:⽂文系学部(計量量経済学)出⾝身データサイエンティスト l  特技:コミュ⼒力力、スモールデータ分析、SPSSとR l  ⼭山岡「データサイエンティストにとって最も重要なスキル、 そう、それはコミュ⼒力力です。」l  ⾄至⾼高側:理理系博⼠士(情報⼯工学)出⾝身データサイエンティスト l  特技:プログラミング、⾃自然⾔言語処理理、機械学習 l  雄⼭山「そう、⾄至⾼高のデータサイエンティストは⼀一流流国⽴立立⼤大学の⼯工学部情報 系博⼠士卒の⾮非リア充だ。⾃自然⾔言語よりプログラミング⾔言語が得意…」
  12. 12. Agendal  データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  不不幸に陥るパターンl  何が⼤大切切なのかl  使う側が守るべきたった1つのこと
  13. 13. バズワード化の功罪とその先:地に⾜足をつける 13 出典:Gartner, 2012
  14. 14. バズワード化の功罪とその先:地に⾜足をつけるデータサイエンティスト 14 出典:Gartner, 2012
  15. 15. 今回話さないこと:「定義」と「つくり⽅方」IT系メディアに無数の記事があるのでそちらをl  データサイエンティストって知ってますかl  データサイエンティストとはいったい何なのでしょうかl  データサイエンティストの最新最強の定義を考えてみましたl  データサイエンティストになるための3つの⽅方法l  データサイエンティストに求められる3つのスキルl  データサイエンティストらしき3⼈人の活躍ぶりを取材しましたl  データサイエンティストに期待される役割と将来の展望l  データサイエンティストはアメリカでも⼤大⼈人気で給料料がいいですl  データサイエンティストは⽇日本でも不不⾜足しててやばいですl  データサイエンティストを育成するにはどうすればいいでしょうかl  データサイエンティストはサイエンティストじゃないl  データサイエンティストというバズワードに踊らされる君たちへl  データサイエンティストが⽇日本で活躍できない3つの理理由
  16. 16. 道具としての○○○:⽇日本実業出版社のシリーズl  教科書でも専⾨門書でも⼀一般向けでもない実⽤用書l  “「理理論論先⾏行行」を排し… 実務に役⽴立立つ知識識・⽅方法をわかりやすく解説。”l  他のテーマ:線形代数/微分⽅方程式/⾦金金融⼯工学 16
  17. 17. 今回話すこと:道具としての「つかい⽅方」l  データサイエンティストとどう付き合ったらいいか? =データサイエンティストと共に仕事をする⼈人の物語 前回資料料より …
  18. 18. なぜ今「つかい⽅方」を考えるべきなのか?=つかう側も変化しなければ絶対うまくいかないからl  過度度の注⽬目と期待によるバブルは必ず弾ける(幻滅期) l  「データサイエンティストは役⽴立立たず!騙された!みな嘘だった!」l  悪いのは本当に彼らだったのか?失敗を防ぐ道はなかったのか? l  他⼈人に責任転嫁して元の世界に戻ってしまわないために 出典:Gartner, 2012
  19. 19. データサイエンティスト(+予備軍) vs. データサイエンティストをつかう側 l  つかう側からの期待は膨らむばかりだが⼈人は⾜足りない l  つかう側が変わらないとスケールしないデータサイエンティスト データサイエンティスト予備軍 つかう側 約1,000⼈人 約10,000⼈人 約100,000⼈人 19
  20. 20. Agendal  データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  21. 21. よくある⾵風景「よし、データ解析PJスタートだ!」l  解決したいビジネス課題 → 決まった l  コンピュータ使えばもっと⾼高度度化できるか、精度度が上げられるか l  例例:⼈人⼿手の監視、経験のマーケティング、勘のリソース最適化l  使えそうなデータ → 少ないが社内で⼊入⼿手するめどが付いたl  データサイエンティストらしき⼈人 → 社内/社外で⾒見見つけた …というわけでそんな感じで とりあえずこれで試してよ わかりました データサイエンティスト つかう側 どれくらいいけそうか 2ヶ⽉月後に報告よろしくね
  22. 22. 2ヶ⽉月後の気まずい報告会「どうしてこうなった…」l  問題設定と⼿手法を⾒見見ると → よくわからないがいろいろ試したようだl  評価指標を⾒見見ると → その値がどれくらいの「良良さ」か判らないl  評価値を⾒見見ると → 現状⼈人間がやってる精度度には達していないl  考察を⾒見見ると → 既に知ってることか直感に反することしかないl  実際に使うことを考えると → 解析結果を直接活かすのは難しい うーん、正直⾔言って微妙だよ 期待してたほどじゃないね これでも精⼀一杯 頑張ったんですが データサイエンティスト つかう側 けどこれじゃあ使えないし 次に進むかも判断できないね
  23. 23. 不不幸パターン: あとで分かったデータの量量・種類・質の不不⾜足 l  量量的な不不⾜足 l  絶対的にサンプル数が少ない l  データ項⽬目が変化して⽐比較不不能なサブセットが⼤大量量にある l  種類の不不⾜足 l  あるカテゴリのサンプルが全く無い l  質的な不不⾜足 l  測定ミスやノイズ、ランダムでない⽋欠損値や⽋欠損区間がある 逆にいえばどれくらい データがあれば充分なの? 多いほど精度度上がるはず ですが実際にはやってみないと 集めるにもコストかかるからデータサイエンティスト それがわからないとね… つかう側
  24. 24. 不不幸パターン: ⽐比較対象に関する認識識のズレ l  全く新しい課題にチャレンジする場合 l  今達成している精度度が本当に良良いのかどうかわからない l  実際に活⽤用した時のROIがわからない l  すでに⼈人間によって取り組んでいる課題にチャレンジする場合 l  お試しプロジェクトでは往々にして専⾨門家の判断には勝てない l  コストと精度度のトレードオフなのだが両⽅方を期待してしまう もっと精度度出るの期待してた 専⾨門家に勝つのは難しいです…データサイエンティスト (それが仕事だろ…) つかう側
  25. 25. その他の不不幸パターンl  問題設定の認識識のズレ l  同じ課題・データでも異異なる定式化で解くことができてしまう l  例例:セキュリティ⽬目的で既知/未知の攻撃どちらを検知したいのかl  評価基準の選択や優先度度のズレ l  モデルをの優劣劣⽐比較ではまず評価基準を選ばなければいけない l  例例:売上に直結するのはPrecisionだが気になるのはRecalll  変数のコントロール可能性に関するズレ l  予測に有効でもコントロール不不能な変数は業務改善に繋がらない l  例例:売れ⾏行行きに最も関係するのは販売地域であることがわかったl  最終的な利利⽤用⽅方法に関する想定のズレ l  データ解析結果を活⽤用して現場でPDCAを回す⽬目処がついていない l  例例:マーケティングのパーソナライズを実現する仕組みはまだ無い
  26. 26. Agendal  データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  27. 27. 誰がデータ解析プロジェクトをダメにしたのか? l  これまでに⾒見見た様々な認識識のズレ l  Q: データサイエンティストに求められる最も⼤大切切な能⼒力力は? l  「それはコミュニケーション能⼒力力ですね(キリッ」 l  え、”ズレ”なのに? l  ズレとは相対的なものなのでは? キミはコミュニケーション 能⼒力力が低いね!(ドヤァ) ……………………データサイエンティスト つかう側
  28. 28. なんでも”コミュニケーション能⼒力力”でまとめるな! l  ないものねだりをしてる⽅方にもある程度度の責任がある l  「うちのビジネスをよく理理解してくれて〜~」 l  「コミュニケーション能⼒力力⾼高くて〜~」 l  「統計も機械学習の最新技術も全部わかってて〜~」 l  「業務でPDCAサイクルてつだってくれて〜~」 あー完璧なデータサイエンティスト どっかにいないかな〜~ …………………… つかう側データサイエンティスト
  29. 29. 完璧なデータサイエンティスト:存在しない
  30. 30. 完璧なデータサイエンティスト:存在しない Business Project Understanding Management Communication Skill
  31. 31. つかう側が守るべきたった3つのことl  (1) 最低限の統計リテラシーを⾝身につけるl  (2) プロジェクトに主体的に参加するl  (3) 最初に「データ解析仕様書」を協⼒力力して作る
  32. 32. Agendal  データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  33. 33. (1) つかう側にも求められる 最低限の統計リテラシーを⾝身につけるl  確率率率論論の基礎 l  正規分布とそれ以外l  統計の基礎 l  平均 or 中央値 l  分散 or 標準偏差 l  検定の概念念とP値の意味l  評価指標の基礎 l  精度度:正解率率率 or Precision or Recall l  その他の指標:F値、ROC曲線、AUC値l  データマイニング/機械学習タスクの基礎 l  カテゴリ予測:分類 or クラスタリング l  異異常検知:教師付き分類 or 教師無し異異常検知
  34. 34. (2) プロジェクトに主体的に参加し コミュニケーションを取る l  解析プロジェクトを他⼈人ごとにしない l  お客様になって⼝口をだすだけでは不不⼗十分 l  中間報告と最終報告で評価するだけでは助けにはならない l  可能であれば定例例MTGに出席する l  いつでもインタラクティブに連絡が取れる環境を作る l  成果に対するインセンティブを共有する 想定外のことはありますか? ⼿手伝えることはありますか? カテゴリ情報の信頼度度が… あと評価軸はこれでいいですか データはすぐ調べます。データサイエンティスト 評価軸は私の想定では… つかう側
  35. 35. (3) 最初に「データ解析仕様書」を協⼒力力して作るl  オリジナルのビジネス課題  l  テーマとしての最終的なゴール  l  今回のプロジェクトの対象とサブゴールl  解析対象としての問題設定  l  採⽤用するアプローチのバリエーション  l  評価に使うデータの量量、項⽬目、質の想定条件l  (⼿手法→データサイエンティストに任せる)  l  定量量的な評価基準  l  今回のプロジェクトの最終的な合格/不不合格基準l  その結果をどのように活⽤用するイメージ化l  導⼊入した場合のBefore/Afterの明確化l  それが誰にとって何がどれくらい嬉しいのかの定量量化
  36. 36. (参考) 関連するプロセス管理理や標準など:データサイエンティストがつかう側に近づく話l  CRISP-DM: Cross Industry Standard Process for Data Mining l  ⾃自社ビジネスにおいてデータマイニングをするプロセスl  PMBOK: Project Management Body Of Knowledge l  SIプロジェクト管理理のノウハウ(プロジェクト成果物記述書など)l  BABOK: Business Analysis Body Of Knowledge l  ビジネス・アナリシス ≠ データ解析プロジェクト CRISP-DM 出典:wikipedia.org
  37. 37. まとめ:つかう側も⾼高みの⾒見見物は絶対に許されない あれが!こうだから! このデータで!こうやって! 仕様書の通り!お願い! はい!!!!!! うおおおおおおお おおおおお!!!データサイエンティスト つかう側 うおおおおおおおおおおおお おおおおおおおおおお!!! できてる!すごい!やった!
  38. 38. 予告編資料料 PFIセミナー  2013/12/xx さらば!データサイエンティスト 株式会社Preferred Infrastructureリサーチャー&Jubatusチームリーダー ⽐比⼾戸  将平
  39. 39. プログラム⾔言語出現以前のプログラミング[ENIAC, 1946] 出典:wikipedia.org
  40. 40. ○○○出現以前のビッグデータ解析プロセス[データサイエンティスト w/ Hadoop+R+Weka, 2013]
  41. 41. 統計リテラシーの向上と分析ツールの進歩によりデータサイエンティスト不不要のケースが増⼤大
  42. 42. (PFI宣伝) Bazil: ⾮非構造データ処理理を得意とするクラウドベースの機械学習分析サービス テキスト ログ/履履歴   数値データ分析 Webブラウザ クラウド担当者 予測要因 予測評価
  43. 43. 乞うご期待!

×