SlideShare a Scribd company logo
1 of 43
Download to read offline
PFIセミナー  2013/03/28

   (道具としての)
データサイエンティストの
     つかい⽅方
 株式会社Preferred Infrastructure
リサーチャー&Jubatusチームリーダー
         ⽐比⼾戸  将平
⾃自⼰己紹介

l    ⽐比⼾戸将平(HIDO Shohei)
l    TwitterID: @sla
l    専⾨門:データマイニング、機械学習
l    経歴:
      l    2006-2012: IBM東京基礎研究所データ解析グループ
             l  機械学習(特に異異常検知)のアルゴリズム研究開発


             l  お客様案件でデータ解析プロジェクトに従事


      l    2012-: 株式会社プリファードインフラストラクチャー
             l  ⼤大規模オンライン分散機械学習基盤Jubatusチームリーダー

l    趣味
      l  京都(京都検定三級)

      l  寺社仏閣巡り(⻄西国・洛洛陽三⼗十三観⾳音霊場満願)

      l    茶茶道(裏裏千家)
                            2
      l    野外⾳音楽フェス(フジロック⾏行行きたい!!!)
Jubatus on Fire!
l    NHK Worldで開発ドキュメンタリー番組が全世界配信




l    Hadoop Summit 2013でのプレゼンテーション決定




l    4/15 19:00- 第2回Jubatusハンズオン(詳細はpartake)
Agenda

l    データサイエンティストブーム


l    「つくり⽅方」の次は「つかい⽅方」


l    お互いに不不幸に陥るパターン


l    つかう側が守るべきたった3つのこと


l    お互いに幸せになるために
去年年9⽉月の第⼀一部「つくり⽅方」:16,000views超え
(参考)データサイエンティストのつくり⽅方




     5            理理想のデータサイエンティスト
                                                      ,
     4                                         ,   20%
             R/Matlab/                      15%
     3
     2         Weka
     1
     0
                                       ,                     ,
                                    25%                   20%
             Hadoop/
              NoSQL

             BI                 R
   DWH/BI/                           , 5%
                                                           , 15%



タイプ別スキル                                    トレーニング分類
Google Trendsによる検索索⼈人気度度:
前回時の⼈人気度度に⽐比べると今は5倍
l    検索索キーワード“データサイエンティスト”




l    “ビッグデータ”




                     7
Google Trendsによる検索索⼈人気度度:
前回時の⼈人気度度に⽐比べると今は5倍
l    検索索キーワード“データサイエンティスト”




l    “ビッグデータ” + “Obama”




                           8
ビッグデータ、データサイエンティスト、統計学
l  “Data Scientist: The Sexiest Job of the 21st Century”
     l  Thomas H. Davenport & D.J. Patil, Harvard Business Review

l  “Sexy Little Numbers”:Amazonマーケティング部⾨門第⼀一位
     l  邦題:データ・サイエンティストに学ぶ「分析⼒力力」

l  “統計学が最強の学問である”:12万部
l  週刊ダイヤモンド 2013/3/30号  :特集“最強の武器「統計学」”
l  ⽇日経新聞2013/3/26朝刊:”⼤大量量データ  経営に⽣生かす”
      l    “「データサイエンティスト」に脚光  航空機制御・広告効果など分析”
データサイエンティスト協会(仮)

l    https://www.facebook.com/DataScientist.jp
究極のデータサイエンティスト
        vs. ⾄至⾼高のデータサイエンティスト
l    http://d.hatena.ne.jp/EulerDijkstra/20130315/1363318205
l    お題:⼩小売スーパーのデータ活⽤用
l    究極側:⽂文系学部(計量量経済学)出⾝身データサイエンティスト
      l    特技:コミュ⼒力力、スモールデータ分析、SPSSとR
      l    ⼭山岡「データサイエンティストにとって最も重要なスキル、
               そう、それはコミュ⼒力力です。」
l    ⾄至⾼高側:理理系博⼠士(情報⼯工学)出⾝身データサイエンティスト
      l    特技:プログラミング、⾃自然⾔言語処理理、機械学習
      l    雄⼭山「そう、⾄至⾼高のデータサイエンティストは⼀一流流国⽴立立⼤大学の⼯工学部情報
               系博⼠士卒の⾮非リア充だ。⾃自然⾔言語よりプログラミング⾔言語が得意…」
Agenda

l    データサイエンティストブーム


l    「つくり⽅方」の次は「つかい⽅方」


l    不不幸に陥るパターン


l    何が⼤大切切なのか


l    使う側が守るべきたった1つのこと
バズワード化の功罪とその先:地に⾜足をつける




            13
                   出典:Gartner, 2012
バズワード化の功罪とその先:地に⾜足をつける



データサイエンティスト




              14
                   出典:Gartner, 2012
今回話さないこと:「定義」と「つくり⽅方」
IT系メディアに無数の記事があるのでそちらを
l    データサイエンティストって知ってますか
l    データサイエンティストとはいったい何なのでしょうか
l    データサイエンティストの最新最強の定義を考えてみました
l    データサイエンティストになるための3つの⽅方法
l    データサイエンティストに求められる3つのスキル
l    データサイエンティストらしき3⼈人の活躍ぶりを取材しました
l    データサイエンティストに期待される役割と将来の展望
l    データサイエンティストはアメリカでも⼤大⼈人気で給料料がいいです
l    データサイエンティストは⽇日本でも不不⾜足しててやばいです
l    データサイエンティストを育成するにはどうすればいいでしょうか
l  データサイエンティストはサイエンティストじゃない
l  データサイエンティストというバズワードに踊らされる君たちへ
l  データサイエンティストが⽇日本で活躍できない3つの理理由
道具としての○○○:⽇日本実業出版社のシリーズ

l    教科書でも専⾨門書でも⼀一般向けでもない実⽤用書
l    “「理理論論先⾏行行」を排し…
            実務に役⽴立立つ知識識・⽅方法をわかりやすく解説。”
l    他のテーマ:線形代数/微分⽅方程式/⾦金金融⼯工学




                     16
今回話すこと:道具としての「つかい⽅方」

l    データサイエンティストとどう付き合ったらいいか?

      =データサイエンティストと共に仕事をする⼈人の物語


       前回資料料より




                     …
なぜ今「つかい⽅方」を考えるべきなのか?
=つかう側も変化しなければ絶対うまくいかないから
l  過度度の注⽬目と期待によるバブルは必ず弾ける(幻滅期)
    l  「データサイエンティストは役⽴立立たず!騙された!みな嘘だった!」

l  悪いのは本当に彼らだったのか?失敗を防ぐ道はなかったのか?
    l  他⼈人に責任転嫁して元の世界に戻ってしまわないために




                                出典:Gartner, 2012
データサイエンティスト(+予備軍)
      vs. データサイエンティストをつかう側

 l    つかう側からの期待は膨らむばかりだが⼈人は⾜足りない
 l    つかう側が変わらないとスケールしない




データサイエンティスト    データサイエンティスト予備軍    つかう側
   約1,000⼈人        約10,000⼈人    約100,000⼈人



                   19
Agenda

l    データサイエンティストブーム


l    「つくり⽅方」の次は「つかい⽅方」


l    お互いに不不幸に陥るパターン


l    つかう側が守るべきたった3つのこと


l    お互いに幸せになるために
よくある⾵風景「よし、データ解析PJスタートだ!」
l  解決したいビジネス課題 → 決まった
    l  コンピュータ使えばもっと⾼高度度化できるか、精度度が上げられるか

    l  例例:⼈人⼿手の監視、経験のマーケティング、勘のリソース最適化

l  使えそうなデータ → 少ないが社内で⼊入⼿手するめどが付いた
l  データサイエンティストらしき⼈人 → 社内/社外で⾒見見つけた


                …というわけでそんな感じで
                 とりあえずこれで試してよ




                      わかりました


      データサイエンティスト                   つかう側
                     どれくらいいけそうか
                    2ヶ⽉月後に報告よろしくね
2ヶ⽉月後の気まずい報告会「どうしてこうなった…」
l    問題設定と⼿手法を⾒見見ると → よくわからないがいろいろ試したようだ
l    評価指標を⾒見見ると → その値がどれくらいの「良良さ」か判らない
l    評価値を⾒見見ると → 現状⼈人間がやってる精度度には達していない
l    考察を⾒見見ると → 既に知ってることか直感に反することしかない
l    実際に使うことを考えると → 解析結果を直接活かすのは難しい

                うーん、正直⾔言って微妙だよ
                 期待してたほどじゃないね



                      これでも精⼀一杯
                      頑張ったんですが

      データサイエンティスト                   つかう側
                     けどこれじゃあ使えないし
                    次に進むかも判断できないね
不不幸パターン:
 あとで分かったデータの量量・種類・質の不不⾜足
 l  量量的な不不⾜足
      l  絶対的にサンプル数が少ない

      l  データ項⽬目が変化して⽐比較不不能なサブセットが⼤大量量にある

 l  種類の不不⾜足
      l  あるカテゴリのサンプルが全く無い

 l  質的な不不⾜足
      l  測定ミスやノイズ、ランダムでない⽋欠損値や⽋欠損区間がある


                  逆にいえばどれくらい
                 データがあれば充分なの?

                多いほど精度度上がるはず
               ですが実際にはやってみないと

                 集めるにもコストかかるから
データサイエンティスト       それがわからないとね…       つかう側
不不幸パターン:
 ⽐比較対象に関する認識識のズレ
 l  全く新しい課題にチャレンジする場合
     l  今達成している精度度が本当に良良いのかどうかわからない

     l  実際に活⽤用した時のROIがわからない

 l  すでに⼈人間によって取り組んでいる課題にチャレンジする場合
     l  お試しプロジェクトでは往々にして専⾨門家の判断には勝てない

     l  コストと精度度のトレードオフなのだが両⽅方を期待してしまう




               もっと精度度出るの期待してた


              専⾨門家に勝つのは難しいです…


データサイエンティスト      (それが仕事だろ…)     つかう側
その他の不不幸パターン
l  問題設定の認識識のズレ
    l  同じ課題・データでも異異なる定式化で解くことができてしまう

    l  例例:セキュリティ⽬目的で既知/未知の攻撃どちらを検知したいのか

l  評価基準の選択や優先度度のズレ
    l  モデルをの優劣劣⽐比較ではまず評価基準を選ばなければいけない

    l  例例:売上に直結するのはPrecisionだが気になるのはRecall

l  変数のコントロール可能性に関するズレ
    l  予測に有効でもコントロール不不能な変数は業務改善に繋がらない

    l  例例:売れ⾏行行きに最も関係するのは販売地域であることがわかった

l  最終的な利利⽤用⽅方法に関する想定のズレ
    l  データ解析結果を活⽤用して現場でPDCAを回す⽬目処がついていない

    l  例例:マーケティングのパーソナライズを実現する仕組みはまだ無い
Agenda

l    データサイエンティストブーム


l    「つくり⽅方」の次は「つかい⽅方」


l    お互いに不不幸に陥るパターン


l    つかう側が守るべきたった3つのこと


l    お互いに幸せになるために
誰がデータ解析プロジェクトをダメにしたのか?

 l  これまでに⾒見見た様々な認識識のズレ
 l  Q: データサイエンティストに求められる最も⼤大切切な能⼒力力は?
      l  「それはコミュニケーション能⼒力力ですね(キリッ」

 l  え、”ズレ”なのに?
 l  ズレとは相対的なものなのでは?



                キミはコミュニケーション
                能⼒力力が低いね!(ドヤァ)


                 ……………………


データサイエンティスト                      つかう側
なんでも”コミュニケーション能⼒力力”でまとめるな!

 l    ないものねだりをしてる⽅方にもある程度度の責任がある
       l  「うちのビジネスをよく理理解してくれて〜~」

       l  「コミュニケーション能⼒力力⾼高くて〜~」

       l  「統計も機械学習の最新技術も全部わかってて〜~」

       l  「業務でPDCAサイクルてつだってくれて〜~」




              あー完璧なデータサイエンティスト
                 どっかにいないかな〜~




                    ……………………
                                  つかう側

データサイエンティスト
完璧なデータサイエンティスト:存在しない
完璧なデータサイエンティスト:存在しない




    Business                        Project
  Understanding                   Management

                  Communication
                      Skill
つかう側が守るべきたった3つのこと

l    (1) 最低限の統計リテラシーを⾝身につける


l    (2) プロジェクトに主体的に参加する


l    (3) 最初に「データ解析仕様書」を協⼒力力して作る
Agenda

l    データサイエンティストブーム


l    「つくり⽅方」の次は「つかい⽅方」


l    お互いに不不幸に陥るパターン


l    つかう側が守るべきたった3つのこと


l    お互いに幸せになるために
(1) つかう側にも求められる
   最低限の統計リテラシーを⾝身につける
l  確率率率論論の基礎
    l  正規分布とそれ以外

l  統計の基礎
    l  平均 or 中央値

    l  分散 or 標準偏差

    l  検定の概念念とP値の意味

l  評価指標の基礎
    l  精度度:正解率率率 or Precision or Recall

    l  その他の指標:F値、ROC曲線、AUC値

l  データマイニング/機械学習タスクの基礎
      l    カテゴリ予測:分類 or クラスタリング
      l    異異常検知:教師付き分類 or 教師無し異異常検知
(2) プロジェクトに主体的に参加し
    コミュニケーションを取る
 l    解析プロジェクトを他⼈人ごとにしない
 l    お客様になって⼝口をだすだけでは不不⼗十分
 l    中間報告と最終報告で評価するだけでは助けにはならない
 l    可能であれば定例例MTGに出席する
 l    いつでもインタラクティブに連絡が取れる環境を作る
 l    成果に対するインセンティブを共有する


                 想定外のことはありますか?
                 ⼿手伝えることはありますか?

                カテゴリ情報の信頼度度が…
               あと評価軸はこれでいいですか

                  データはすぐ調べます。
データサイエンティスト       評価軸は私の想定では…     つかう側
(3) 最初に「データ解析仕様書」を協⼒力力して作る

l    オリジナルのビジネス課題  
l    テーマとしての最終的なゴール  
l    今回のプロジェクトの対象とサブゴール
l    解析対象としての問題設定  
l    採⽤用するアプローチのバリエーション  
l    評価に使うデータの量量、項⽬目、質の想定条件
l    (⼿手法→データサイエンティストに任せる)  
l    定量量的な評価基準  
l    今回のプロジェクトの最終的な合格/不不合格基準
l    その結果をどのように活⽤用するイメージ化
l    導⼊入した場合のBefore/Afterの明確化
l    それが誰にとって何がどれくらい嬉しいのかの定量量化
(参考) 関連するプロセス管理理や標準など:
データサイエンティストがつかう側に近づく話
l  CRISP-DM: Cross Industry Standard Process for Data Mining
     l  ⾃自社ビジネスにおいてデータマイニングをするプロセス

l  PMBOK: Project Management Body Of Knowledge
     l  SIプロジェクト管理理のノウハウ(プロジェクト成果物記述書など)

l  BABOK: Business Analysis Body Of Knowledge
     l  ビジネス・アナリシス ≠ データ解析プロジェクト




                        CRISP-DM                  出典:wikipedia.org
まとめ:つかう側も⾼高みの⾒見見物は絶対に許されない



            あれが!こうだから!
          このデータで!こうやって!
           仕様書の通り!お願い!


                はい!!!!!!
                うおおおおおおお
                おおおおお!!!

データサイエンティスト                   つかう側
              うおおおおおおおおおおおお
              おおおおおおおおおお!!!
              できてる!すごい!やった!
予告編資料料

   PFIセミナー  2013/12/xx

    さらば!
データサイエンティスト

 株式会社Preferred Infrastructure
リサーチャー&Jubatusチームリーダー
         ⽐比⼾戸  将平
プログラム⾔言語出現以前のプログラミング
[ENIAC, 1946]




                       出典:wikipedia.org
○○○出現以前のビッグデータ解析プロセス
[データサイエンティスト w/ Hadoop+R+Weka, 2013]
統計リテラシーの向上と分析ツールの進歩により
データサイエンティスト不不要のケースが増⼤大
(PFI宣伝) Bazil: ⾮非構造データ処理理を得意とする
クラウドベースの機械学習分析サービス




      テキスト   ログ/履履歴   数値データ



分析                            Webブラウザ   クラウド
担当者
         予測要因    予測評価
乞うご期待!

More Related Content

What's hot

いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
horihorio
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
 

What's hot (20)

いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
 
機械学習CROSS 前半資料
機械学習CROSS 前半資料機械学習CROSS 前半資料
機械学習CROSS 前半資料
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2
 
rcast_20140411
rcast_20140411rcast_20140411
rcast_20140411
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with Mahout
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
 
素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみた素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみた
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
 
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
 
機械学習
機械学習機械学習
機械学習
 
自然言語処理紹介(就職編)
自然言語処理紹介(就職編)自然言語処理紹介(就職編)
自然言語処理紹介(就職編)
 

Viewers also liked

FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
 
5年後のデータサイエンティスト
5年後のデータサイエンティスト5年後のデータサイエンティスト
5年後のデータサイエンティスト
Drecom Co., Ltd.
 

Viewers also liked (18)

さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティスト
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
 
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoSoftware for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
 
Chainer GTC 2016
Chainer GTC 2016Chainer GTC 2016
Chainer GTC 2016
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
How AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industriesHow AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industries
 
機械学習CROSS 後半資料
機械学習CROSS 後半資料機械学習CROSS 後半資料
機械学習CROSS 後半資料
 
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料
 
プロダクトマネージャのお仕事
プロダクトマネージャのお仕事プロダクトマネージャのお仕事
プロダクトマネージャのお仕事
 
5年後のデータサイエンティスト
5年後のデータサイエンティスト5年後のデータサイエンティスト
5年後のデータサイエンティスト
 
[DevLove甲子園2014西日本大会]ユーザ系情報システム会社からCIerへ
[DevLove甲子園2014西日本大会]ユーザ系情報システム会社からCIerへ[DevLove甲子園2014西日本大会]ユーザ系情報システム会社からCIerへ
[DevLove甲子園2014西日本大会]ユーザ系情報システム会社からCIerへ
 
Chisq 01
Chisq 01Chisq 01
Chisq 01
 
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめBigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
 
グレブナー基底とその応用
グレブナー基底とその応用グレブナー基底とその応用
グレブナー基底とその応用
 

Similar to (道具としての)データサイエンティストのつかい方

【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
webcampusschoo
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
Preferred Networks
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
Shigeru Kishikawa
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
Issei Kurahashi
 

Similar to (道具としての)データサイエンティストのつかい方 (20)

tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
オープンソースで開くビッグデータの扉
オープンソースで開くビッグデータの扉オープンソースで開くビッグデータの扉
オープンソースで開くビッグデータの扉
 
オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
 
データプランナーによるデータ系施策について
データプランナーによるデータ系施策についてデータプランナーによるデータ系施策について
データプランナーによるデータ系施策について
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
TokyoR42_around_chaining
TokyoR42_around_chainingTokyoR42_around_chaining
TokyoR42_around_chaining
 
Akira shibata at developer summit 2016
Akira shibata at developer summit 2016Akira shibata at developer summit 2016
Akira shibata at developer summit 2016
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
 

More from Shohei Hido

111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
Shohei Hido
 
111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandas111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandas
Shohei Hido
 
111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_python111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_python
Shohei Hido
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist
Shohei Hido
 
110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果
Shohei Hido
 

More from Shohei Hido (10)

CuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPUCuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPU
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
NIPS2017概要
NIPS2017概要NIPS2017概要
NIPS2017概要
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandas111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandas
 
111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_python111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_python
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist
 
110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果
 

Recently uploaded

研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
atsushi061452
 

Recently uploaded (14)

5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
 
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
 
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
 
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
 
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイント
 
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
 
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
 

(道具としての)データサイエンティストのつかい方

  • 1. PFIセミナー  2013/03/28 (道具としての) データサイエンティストの つかい⽅方 株式会社Preferred Infrastructure リサーチャー&Jubatusチームリーダー ⽐比⼾戸  将平
  • 2. ⾃自⼰己紹介 l  ⽐比⼾戸将平(HIDO Shohei) l  TwitterID: @sla l  専⾨門:データマイニング、機械学習 l  経歴: l  2006-2012: IBM東京基礎研究所データ解析グループ l  機械学習(特に異異常検知)のアルゴリズム研究開発 l  お客様案件でデータ解析プロジェクトに従事 l  2012-: 株式会社プリファードインフラストラクチャー l  ⼤大規模オンライン分散機械学習基盤Jubatusチームリーダー l  趣味 l  京都(京都検定三級) l  寺社仏閣巡り(⻄西国・洛洛陽三⼗十三観⾳音霊場満願) l  茶茶道(裏裏千家) 2 l  野外⾳音楽フェス(フジロック⾏行行きたい!!!)
  • 3. Jubatus on Fire! l  NHK Worldで開発ドキュメンタリー番組が全世界配信 l  Hadoop Summit 2013でのプレゼンテーション決定 l  4/15 19:00- 第2回Jubatusハンズオン(詳細はpartake)
  • 4. Agenda l  データサイエンティストブーム l  「つくり⽅方」の次は「つかい⽅方」 l  お互いに不不幸に陥るパターン l  つかう側が守るべきたった3つのこと l  お互いに幸せになるために
  • 6. (参考)データサイエンティストのつくり⽅方 5 理理想のデータサイエンティスト , 4 , 20% R/Matlab/ 15% 3 2 Weka 1 0 , , 25% 20% Hadoop/ NoSQL BI R DWH/BI/ , 5% , 15% タイプ別スキル トレーニング分類
  • 7. Google Trendsによる検索索⼈人気度度: 前回時の⼈人気度度に⽐比べると今は5倍 l  検索索キーワード“データサイエンティスト” l  “ビッグデータ” 7
  • 8. Google Trendsによる検索索⼈人気度度: 前回時の⼈人気度度に⽐比べると今は5倍 l  検索索キーワード“データサイエンティスト” l  “ビッグデータ” + “Obama” 8
  • 9. ビッグデータ、データサイエンティスト、統計学 l  “Data Scientist: The Sexiest Job of the 21st Century” l  Thomas H. Davenport & D.J. Patil, Harvard Business Review l  “Sexy Little Numbers”:Amazonマーケティング部⾨門第⼀一位 l  邦題:データ・サイエンティストに学ぶ「分析⼒力力」 l  “統計学が最強の学問である”:12万部 l  週刊ダイヤモンド 2013/3/30号  :特集“最強の武器「統計学」” l  ⽇日経新聞2013/3/26朝刊:”⼤大量量データ  経営に⽣生かす” l  “「データサイエンティスト」に脚光  航空機制御・広告効果など分析”
  • 10. データサイエンティスト協会(仮) l  https://www.facebook.com/DataScientist.jp
  • 11. 究極のデータサイエンティスト vs. ⾄至⾼高のデータサイエンティスト l  http://d.hatena.ne.jp/EulerDijkstra/20130315/1363318205 l  お題:⼩小売スーパーのデータ活⽤用 l  究極側:⽂文系学部(計量量経済学)出⾝身データサイエンティスト l  特技:コミュ⼒力力、スモールデータ分析、SPSSとR l  ⼭山岡「データサイエンティストにとって最も重要なスキル、 そう、それはコミュ⼒力力です。」 l  ⾄至⾼高側:理理系博⼠士(情報⼯工学)出⾝身データサイエンティスト l  特技:プログラミング、⾃自然⾔言語処理理、機械学習 l  雄⼭山「そう、⾄至⾼高のデータサイエンティストは⼀一流流国⽴立立⼤大学の⼯工学部情報 系博⼠士卒の⾮非リア充だ。⾃自然⾔言語よりプログラミング⾔言語が得意…」
  • 12. Agenda l  データサイエンティストブーム l  「つくり⽅方」の次は「つかい⽅方」 l  不不幸に陥るパターン l  何が⼤大切切なのか l  使う側が守るべきたった1つのこと
  • 15. 今回話さないこと:「定義」と「つくり⽅方」 IT系メディアに無数の記事があるのでそちらを l  データサイエンティストって知ってますか l  データサイエンティストとはいったい何なのでしょうか l  データサイエンティストの最新最強の定義を考えてみました l  データサイエンティストになるための3つの⽅方法 l  データサイエンティストに求められる3つのスキル l  データサイエンティストらしき3⼈人の活躍ぶりを取材しました l  データサイエンティストに期待される役割と将来の展望 l  データサイエンティストはアメリカでも⼤大⼈人気で給料料がいいです l  データサイエンティストは⽇日本でも不不⾜足しててやばいです l  データサイエンティストを育成するにはどうすればいいでしょうか l  データサイエンティストはサイエンティストじゃない l  データサイエンティストというバズワードに踊らされる君たちへ l  データサイエンティストが⽇日本で活躍できない3つの理理由
  • 16. 道具としての○○○:⽇日本実業出版社のシリーズ l  教科書でも専⾨門書でも⼀一般向けでもない実⽤用書 l  “「理理論論先⾏行行」を排し… 実務に役⽴立立つ知識識・⽅方法をわかりやすく解説。” l  他のテーマ:線形代数/微分⽅方程式/⾦金金融⼯工学 16
  • 17. 今回話すこと:道具としての「つかい⽅方」 l  データサイエンティストとどう付き合ったらいいか? =データサイエンティストと共に仕事をする⼈人の物語 前回資料料より …
  • 18. なぜ今「つかい⽅方」を考えるべきなのか? =つかう側も変化しなければ絶対うまくいかないから l  過度度の注⽬目と期待によるバブルは必ず弾ける(幻滅期) l  「データサイエンティストは役⽴立立たず!騙された!みな嘘だった!」 l  悪いのは本当に彼らだったのか?失敗を防ぐ道はなかったのか? l  他⼈人に責任転嫁して元の世界に戻ってしまわないために 出典:Gartner, 2012
  • 19. データサイエンティスト(+予備軍) vs. データサイエンティストをつかう側 l  つかう側からの期待は膨らむばかりだが⼈人は⾜足りない l  つかう側が変わらないとスケールしない データサイエンティスト データサイエンティスト予備軍 つかう側 約1,000⼈人 約10,000⼈人 約100,000⼈人 19
  • 20. Agenda l  データサイエンティストブーム l  「つくり⽅方」の次は「つかい⽅方」 l  お互いに不不幸に陥るパターン l  つかう側が守るべきたった3つのこと l  お互いに幸せになるために
  • 21. よくある⾵風景「よし、データ解析PJスタートだ!」 l  解決したいビジネス課題 → 決まった l  コンピュータ使えばもっと⾼高度度化できるか、精度度が上げられるか l  例例:⼈人⼿手の監視、経験のマーケティング、勘のリソース最適化 l  使えそうなデータ → 少ないが社内で⼊入⼿手するめどが付いた l  データサイエンティストらしき⼈人 → 社内/社外で⾒見見つけた …というわけでそんな感じで とりあえずこれで試してよ わかりました データサイエンティスト つかう側 どれくらいいけそうか 2ヶ⽉月後に報告よろしくね
  • 22. 2ヶ⽉月後の気まずい報告会「どうしてこうなった…」 l  問題設定と⼿手法を⾒見見ると → よくわからないがいろいろ試したようだ l  評価指標を⾒見見ると → その値がどれくらいの「良良さ」か判らない l  評価値を⾒見見ると → 現状⼈人間がやってる精度度には達していない l  考察を⾒見見ると → 既に知ってることか直感に反することしかない l  実際に使うことを考えると → 解析結果を直接活かすのは難しい うーん、正直⾔言って微妙だよ 期待してたほどじゃないね これでも精⼀一杯 頑張ったんですが データサイエンティスト つかう側 けどこれじゃあ使えないし 次に進むかも判断できないね
  • 23. 不不幸パターン: あとで分かったデータの量量・種類・質の不不⾜足 l  量量的な不不⾜足 l  絶対的にサンプル数が少ない l  データ項⽬目が変化して⽐比較不不能なサブセットが⼤大量量にある l  種類の不不⾜足 l  あるカテゴリのサンプルが全く無い l  質的な不不⾜足 l  測定ミスやノイズ、ランダムでない⽋欠損値や⽋欠損区間がある 逆にいえばどれくらい データがあれば充分なの? 多いほど精度度上がるはず ですが実際にはやってみないと 集めるにもコストかかるから データサイエンティスト それがわからないとね… つかう側
  • 24. 不不幸パターン: ⽐比較対象に関する認識識のズレ l  全く新しい課題にチャレンジする場合 l  今達成している精度度が本当に良良いのかどうかわからない l  実際に活⽤用した時のROIがわからない l  すでに⼈人間によって取り組んでいる課題にチャレンジする場合 l  お試しプロジェクトでは往々にして専⾨門家の判断には勝てない l  コストと精度度のトレードオフなのだが両⽅方を期待してしまう もっと精度度出るの期待してた 専⾨門家に勝つのは難しいです… データサイエンティスト (それが仕事だろ…) つかう側
  • 25. その他の不不幸パターン l  問題設定の認識識のズレ l  同じ課題・データでも異異なる定式化で解くことができてしまう l  例例:セキュリティ⽬目的で既知/未知の攻撃どちらを検知したいのか l  評価基準の選択や優先度度のズレ l  モデルをの優劣劣⽐比較ではまず評価基準を選ばなければいけない l  例例:売上に直結するのはPrecisionだが気になるのはRecall l  変数のコントロール可能性に関するズレ l  予測に有効でもコントロール不不能な変数は業務改善に繋がらない l  例例:売れ⾏行行きに最も関係するのは販売地域であることがわかった l  最終的な利利⽤用⽅方法に関する想定のズレ l  データ解析結果を活⽤用して現場でPDCAを回す⽬目処がついていない l  例例:マーケティングのパーソナライズを実現する仕組みはまだ無い
  • 26. Agenda l  データサイエンティストブーム l  「つくり⽅方」の次は「つかい⽅方」 l  お互いに不不幸に陥るパターン l  つかう側が守るべきたった3つのこと l  お互いに幸せになるために
  • 27. 誰がデータ解析プロジェクトをダメにしたのか? l  これまでに⾒見見た様々な認識識のズレ l  Q: データサイエンティストに求められる最も⼤大切切な能⼒力力は? l  「それはコミュニケーション能⼒力力ですね(キリッ」 l  え、”ズレ”なのに? l  ズレとは相対的なものなのでは? キミはコミュニケーション 能⼒力力が低いね!(ドヤァ) …………………… データサイエンティスト つかう側
  • 28. なんでも”コミュニケーション能⼒力力”でまとめるな! l  ないものねだりをしてる⽅方にもある程度度の責任がある l  「うちのビジネスをよく理理解してくれて〜~」 l  「コミュニケーション能⼒力力⾼高くて〜~」 l  「統計も機械学習の最新技術も全部わかってて〜~」 l  「業務でPDCAサイクルてつだってくれて〜~」 あー完璧なデータサイエンティスト どっかにいないかな〜~ …………………… つかう側 データサイエンティスト
  • 30. 完璧なデータサイエンティスト:存在しない Business Project Understanding Management Communication Skill
  • 31. つかう側が守るべきたった3つのこと l  (1) 最低限の統計リテラシーを⾝身につける l  (2) プロジェクトに主体的に参加する l  (3) 最初に「データ解析仕様書」を協⼒力力して作る
  • 32. Agenda l  データサイエンティストブーム l  「つくり⽅方」の次は「つかい⽅方」 l  お互いに不不幸に陥るパターン l  つかう側が守るべきたった3つのこと l  お互いに幸せになるために
  • 33. (1) つかう側にも求められる 最低限の統計リテラシーを⾝身につける l  確率率率論論の基礎 l  正規分布とそれ以外 l  統計の基礎 l  平均 or 中央値 l  分散 or 標準偏差 l  検定の概念念とP値の意味 l  評価指標の基礎 l  精度度:正解率率率 or Precision or Recall l  その他の指標:F値、ROC曲線、AUC値 l  データマイニング/機械学習タスクの基礎 l  カテゴリ予測:分類 or クラスタリング l  異異常検知:教師付き分類 or 教師無し異異常検知
  • 34. (2) プロジェクトに主体的に参加し コミュニケーションを取る l  解析プロジェクトを他⼈人ごとにしない l  お客様になって⼝口をだすだけでは不不⼗十分 l  中間報告と最終報告で評価するだけでは助けにはならない l  可能であれば定例例MTGに出席する l  いつでもインタラクティブに連絡が取れる環境を作る l  成果に対するインセンティブを共有する 想定外のことはありますか? ⼿手伝えることはありますか? カテゴリ情報の信頼度度が… あと評価軸はこれでいいですか データはすぐ調べます。 データサイエンティスト 評価軸は私の想定では… つかう側
  • 35. (3) 最初に「データ解析仕様書」を協⼒力力して作る l  オリジナルのビジネス課題   l  テーマとしての最終的なゴール   l  今回のプロジェクトの対象とサブゴール l  解析対象としての問題設定   l  採⽤用するアプローチのバリエーション   l  評価に使うデータの量量、項⽬目、質の想定条件 l  (⼿手法→データサイエンティストに任せる)   l  定量量的な評価基準   l  今回のプロジェクトの最終的な合格/不不合格基準 l  その結果をどのように活⽤用するイメージ化 l  導⼊入した場合のBefore/Afterの明確化 l  それが誰にとって何がどれくらい嬉しいのかの定量量化
  • 36. (参考) 関連するプロセス管理理や標準など: データサイエンティストがつかう側に近づく話 l  CRISP-DM: Cross Industry Standard Process for Data Mining l  ⾃自社ビジネスにおいてデータマイニングをするプロセス l  PMBOK: Project Management Body Of Knowledge l  SIプロジェクト管理理のノウハウ(プロジェクト成果物記述書など) l  BABOK: Business Analysis Body Of Knowledge l  ビジネス・アナリシス ≠ データ解析プロジェクト CRISP-DM 出典:wikipedia.org
  • 37. まとめ:つかう側も⾼高みの⾒見見物は絶対に許されない あれが!こうだから! このデータで!こうやって! 仕様書の通り!お願い! はい!!!!!! うおおおおおおお おおおおお!!! データサイエンティスト つかう側 うおおおおおおおおおおおお おおおおおおおおおお!!! できてる!すごい!やった!
  • 38. 予告編資料料 PFIセミナー  2013/12/xx さらば! データサイエンティスト 株式会社Preferred Infrastructure リサーチャー&Jubatusチームリーダー ⽐比⼾戸  将平
  • 42. (PFI宣伝) Bazil: ⾮非構造データ処理理を得意とする クラウドベースの機械学習分析サービス テキスト ログ/履履歴   数値データ 分析 Webブラウザ クラウド 担当者 予測要因 予測評価