さらば!データサイエンティスト

37,921 views

Published on

2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料
Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309

Published in: Technology
1 Comment
138 Likes
Statistics
Notes
No Downloads
Views
Total views
37,921
On SlideShare
0
From Embeds
0
Number of Embeds
742
Actions
Shares
0
Downloads
331
Comments
1
Likes
138
Embeds 0
No embeds

No notes for slide

さらば!データサイエンティスト

  1. 1. さらば! データサイエンティスト PFIセミナー 2013/08/22 株式会社Preferred Infrastructure リサーチャー&Jubatusチームリーダー 比戸 将平
  2. 2. 自己紹介  比戸将平(HIDO Shohei)  TwitterID: @sla  専門:データマイニング、機械学習  経歴:  2006-2012: IBM東京基礎研究所データ解析グループ  機械学習(特に異常検知)のアルゴリズム研究開発  お客様案件でデータ解析プロジェクトに従事  2012-: 株式会社プリファードインフラストラクチャー  大規模オンライン分散機械学習基盤Jubatusチームリーダー  2013-: Preferred Infrastructure America, Inc.  Chief Research Officer 2
  3. 3. IT Leaders様にインタビュー記事掲載: 数日間Google検索のトップにいた(?) http://it.impressbm.co.jp/e/2013/08/01/5054
  4. 4. データサイエンティスト三部作・完結編 「さらば!データサイエンティスト」  つくり方:データサイエンティストグループの構築  つかい方:仕事を依頼する側のリテラシーの話  今回は定義論もあるあるも活用方法も無し Slideshareにて公開中
  5. 5.  続:データサイエンティストブーム  なぜ「さらば」なのか?  具体例  まとめ  作者のあとがき Agenda データサイエンティスト うおおおおおお
  6. 6. NHKクローズアップ現代で統計ブーム特集  “統計学を使いこなす「データサイエンティスト」と呼 ばれる専門職は「最もセクシーな(魅力的な)職業」だ として、多くの企業から引く手あまたの状況だ。” http://www.nhk.or.jp/gendai/yotei/index_yotei_3375.html
  7. 7. Google Trendsによる検索人気度のMAX: 第2回時の3倍、第1回時の15倍 7
  8. 8. データサイエンティスト協会設立 →役割の定義と育成へ http://www.datascientist.or.jp/
  9. 9. 各社による育成ビジネス http://www.albert2005.co.jp/release/archives/201307/29_120043.html http://www.brainpad.co.jp/news/2013/pdf/0806.pdf http://japan.emc.com/microsites/bigdata/why-big-data-datascientist.htm
  10. 10. 関連本の相次ぐ出版:今年4月以降だけでこれだけ 育成、データ分析、統計推し、事例集、情シスの逆襲
  11. 11. 現時点での決定版: データサイエンティスト養成読本(今見た)  広いトピックがコンパクトにかつ初歩には必要十分  データ分析基礎編、データサイエンス、R、NumPy、 機械学習、Fluentd、マーケティング分析、SNS分析、SQL  インストール方法、サンプルも豊富に載ってる  データサイエンティストを目指すなら必読
  12. 12. 本日のキーメッセージ データサイエンティストは… 養成できません!!! (そう簡単には)
  13. 13.  続:データサイエンティストブーム  なぜ「さらば」なのか?  具体例  まとめ  作者のあとがき Agenda データサイエンティスト うおおおおおお
  14. 14. ビッグデータ分析の導入:まだまだこれから  IBMの2012年調査  24%がまだビッグデータ活用について調査段階  47%がビッグデータ活用方法について検討段階  わずか6%が導入してビジネス価値を生み出している  導入の困難さと効率化の困難さがやや混同されている IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
  15. 15. ビッグデータ 解析 データ アナリティクス ビ ッ グ デ ー タ ビッグデータ分析の現状:ブラックボックス? 15 応用 利益最大化 コスト最小化 需要予測 故障予知 営業戦略最適化 パーソナライズ マーケ最適化 データ サイエンティスト
  16. 16. ビ ッ グ デ ー タ ビッグデータ処理系と解析ソフトウェアの組合せ 16 データサイエンティスト ビッグデータ処理系 応用 利益最大化 コスト最小化 需要予測 故障予知 営業戦略最適化 パーソナライズ マーケ最適化 大規模DB 解析ソフトウェア
  17. 17. ビッグデータ分析の導入と効率化における3つの壁 IT 1 2 3  パターン1:ビジネスに結びつける組織・体制  パターン2:データ収集と蓄積の基盤  ☆パターン3:解析の手法とスキルと効果測定
  18. 18. 壁パターン1:ビジネスに結びつける組織・体制  経営陣による戦略決定、組織横断のチームづくり  関係部門全てに対する負担要請と利害調整  ビッグデータ分析の効果の公平な分配
  19. 19. 壁パターン2:データ収集と蓄積の基盤  データが収集されていない、組織内にはるが出て来ない  蓄積するための統合ITインフラが用意されていない  部門単位でコストをかけるにはリスクが高すぎる …そこをなんとか… 機密情報だからなー 個人情報保護もあるし。 そんなデータないよ。 え?新しく取れ? (面倒だな…) データサイエンティスト マネージャー 現場社員
  20. 20. 壁パターン3:解析の手法とスキルと効果測定  統計学が重要というコンセプトレベルでは皆同意  一方でデータサイエンティストへの過度の期待  「うちのビジネスをよく理解してくれて〜」  「コミュニケーション能力とPM力高くて〜」  「統計も機械学習の最新技術も全部わかってて〜」  「PDCAサイクル回すの手伝ってくれて〜」 あー完璧なデータサイエンティスト どっかにいないかな〜 上層部 データサイエンティスト ……………………
  21. 21. スキルの問題:教育によりある程度解決する見込み  真実:完璧なデータサイエンティストは存在しない Communication Skill Business Understanding Project Management
  22. 22. 第3の支え:進化した解析用ソフトウェア 今ほとんど触れられることのない部分 ビッグデータ分析 ビッグデータ ITインフラ 統 計 学 デ ー タ サ イ エ ン テ ィ ス ト 進 化 し た 解 析 用 ソ フ ト
  23. 23. 現状使われているソフトウェア群 RDB / NoSQL Hadoop / SQL-like Analytics
  24. 24. ○○○出現以前のビッグデータ分析プロセス [データサイエンティスト w/ Hadoop+R+Weka, 2013] ビ グ デ ー タ データサイエンティスト ビッグデータ処理理系 需要予測 故障予知 パーソナライズ マーケ最適化 ⼤大規 模 DB 解析ソフトウェア
  25. 25. プログラム言語出現以前のプログラミング [ENIAC, 1946] 出典:wikipedia.org  急募!配線エンジニア  設計書通りに壁の穴から穴へ配線を繋ぐだけの簡単なお仕事  これからのコンピュータ時代に求められるスキルが身につきます!
  26. 26. 解析ソフトウェアの進化:あまり考慮されていない 今後もこれからのツールがずっと使われるのか?  Matlab: 1984-  SPSS: 1988-  Weka: 1993-  GNU R: 1996-  元のS言語は 1984- RDB / NoSQL Hadoop / SQL-like Analytics
  27. 27. 統計リテラシーの向上と解析ツールの進歩により データサイエンティスト不要のケースが増大 ビ グ デ ー タ 需要予測 故障予知 パーソナライズ マーケ最適化 データ分析担当者 新たな分析ツール群
  28. 28. 健全なビッグデータ分析を実現するために  ビッグデータという言葉によって データとミドルウェアだけに注目が 集まっている  そこで解決できない課題を人力で何 とかしてくれるデータサイエンティ ストの出現と、その理想像に関する 議論が盛んに行われている  組織の意識変革や経営陣・マネジメ ント層の統計リテラシー向上も重要 だが、その他の変化も見失ってはい けない 解析ソフト 人 組織 データ ミドルウェア
  29. 29.  続:データサイエンティストブーム  なぜ「さらば」なのか?  具体例  まとめ  作者のあとがき Agenda データサイエンティスト うおおおおおお
  30. 30. 解析ソフトウェアの進化とは  何が解析ソフトウェアをどう変えるのか  メモリの大容量化→インメモリ処理のスケーラビリティ向上  仮想化技術→面倒なデータ管理をユーザーから隠蔽  ネットワークの高速化→処理結果を瞬時に伝送可能  ブラウザ上GUIの進化→ブラウザからカンタンにに使えるUI  クラウド→環境構築と性能増減のコストがほぼゼロに  進化した解析ソフトウェアの特徵  インメモリ動作:解析処理のインタラクティブ性を重視  クラウド、SaaS化:データは向こう側に置いて結果だけ得る  使いやすいUIに特化:ユーザーの敷居を出来る限り下げる  シンプルな課金体系:無料トライアル+機能x月額料金
  31. 31. 紹介する実例  インタラクティブなデータ可視化ツール  QlikView  Tableau  表形式データ加工ツール  Fivetran  カンタンに使える機械学習ツール  bigML  Bazil  データサイエンティストのお助けツール  MLbase  maf
  32. 32. インタラクティブなデータ可視化(1/2) QlikTech - QliKview (1996-)  従来のBIツールとの違い:セルフサービス型  データをインメモリで保持しビューをその場で変更可能  複数の情報源を透過的に組合せ検索しながら深堀り・絞込み  概要ムービー
  33. 33. インタラクティブなデータ可視化(2/2) Tableau (2003-)  VizQLという独自の可視化クエリ言語に基づいたシステム  Amazon EC2で動作可能、クラウドサービスもリリース  サンプルデモ
  34. 34. 表形式データ加工ツール: Fivetran (2013-)  完全ブラウザベースで表形式データの処理を実行  「ExcelとMatlabの間」→サンプルデモ  独自の処理クエリを入力すると結果が次の表になる  単なる変換から集計、時系列分析まで機能を拡張中
  35. 35. カンタンに使える機械学習ツール(1/2) bigML (2012-)  “Machine Learning for Everyone”  決定木アルゴリズムによる学習&予測フローを固定化  パラメータ調整や結果の表示を重視  動作デモ
  36. 36. 分析 担当者 テキスト ログ/履歴 Webブラウザ クラウド 予測要因 予測評価 数値データ カンタンに使える機械学習ツール(2/2) Preferred Infrastructure - Bazil (2013-)  “Machine Learning for Everyone”  決定木アルゴリズムによる学習&予測フローを固定化  パラメータ調整や結果の表示を重視  動作デモ
  37. 37. データサイエンティストのお助けツール(1/2) UC Berkley - MLbase in BDAS(2013-)  機械学習タスクの実行クエリを抽象的に記述  アルゴリズムやパラメータを変更して分散実行 [Kraska+, CIDR2013]
  38. 38. データサイエンティストのお助けツール(2/2) Preferred Infrastructure – maf (2013-)  アルゴリズムやパラメータを変更して実行  wafベース、設定から可視化(matplotlib)までを pythonコードとして簡単に記述できる
  39. 39. 解析ソフトウェアの変化がもたらすもの: データサイエンティストの負担が減る  今は非力でもソフトウェアの高性能化と抽象化が後押し  不要になる:面倒なデータ管理や前処理の繰り返し  自動化される:実験設定を変更しては再実行の試行錯誤  敷居が下がる:一般ユーザーがExcelのようにこなせる仕事 従来のソフトウェア基盤 新しいソフトウェア基盤 BI ・例:Cognos、BusinessObjects ・DB上でのバッチ処理 ・固定のビュー・ドリルダウン ・定型的なレポート中心 ・例:QlikView、Tableau ・インメモリで高速処理 ・自由に変更可能なビュー ・インタラクティブな分析 機械学習 ・例:R、MATLAB ・任意の解析処理が実現可能 ・専用スクリプトの記述が必要 ・結果の解釈は重視されていない ・例:bigML、Bazil ・解析フローは固定、調整可 ・スクリプト無し、設定のみ ・結果の可視化なども統合
  40. 40.  続:データサイエンティストブーム  なぜ「さらば」なのか?  具体例  まとめ  作者のあとがき Agenda データサイエンティスト うおおおおおお
  41. 41. まとめ  ビッグデータ分析を効率化するためのソフトウェアが 必ずこれからどんどん市場に出てきます  この解析ソフトウェアの進化は、データインフラの整 備、統計リテラシーの向上、組織的ビッグデータ戦略の 浸透、データサイエンティストの育成と並行して進みま す  重要なスキル、組織のIT戦略、ソフトウェア、ミドル ウェア、ハードウェア、コンピュータアーキテクチャは 刷新サイクルはがそれぞれ異なります  それを見極めるのが最先端を逃さないために重要です
  42. 42.  続:データサイエンティストブーム  なぜ「さらば」なのか?  具体例  まとめ  作者のあとがき Agenda データサイエンティスト うおおおおおお
  43. 43. 作者のあとがき  良くも悪くも全てはポジショントーク!  データサイエンティストとして自分を高く売りたい人  育成ビジネスで儲けたい研修サービス会社  ブームに乗って関連本を売りたい出版社  最終的にIT投資を増やして欲しいベンダー  ネットでちょっとウケて目立ちたかった僕
  44. 44. ブームに乗せられるのではなく、乗る  ビッグデータとかデータサイエンティストとかの言葉は 滅びるかもしれない  けど以下の事実は不変  収集できるデータの量、品質、種類が増える  データ分析を支えるツールの使いやすさと計算能力が上がる  経営陣、マネジメント層にデータ活用の意識が高まる  これまでデータ活用で何かを成し遂げようとしたときに 障害となってきたデータ/ソフト/ハード/組織の壁が どんどん低くなりつつある  これらのハードルをギリギリで飛び越えて結果を出した 勇者のみがデータサイエンティストを名のれる!!  まぁ観念論はこの辺にして、Excel作業に戻ろうか…
  45. 45. Have a happy data scientist life!! そんじゃーね!

×