さらば!データサイエンティスト

Shohei Hido
Shohei HidoChief Research Officer at Preferred Networks America, Inc.
さらば!
データサイエンティスト
PFIセミナー 2013/08/22
株式会社Preferred Infrastructure
リサーチャー&Jubatusチームリーダー
比戸 将平
自己紹介
 比戸将平(HIDO Shohei)
 TwitterID: @sla
 専門:データマイニング、機械学習
 経歴:
 2006-2012: IBM東京基礎研究所データ解析グループ
 機械学習(特に異常検知)のアルゴリズム研究開発
 お客様案件でデータ解析プロジェクトに従事
 2012-: 株式会社プリファードインフラストラクチャー
 大規模オンライン分散機械学習基盤Jubatusチームリーダー
 2013-: Preferred Infrastructure America, Inc.
 Chief Research Officer
2
IT Leaders様にインタビュー記事掲載:
数日間Google検索のトップにいた(?)
http://it.impressbm.co.jp/e/2013/08/01/5054
データサイエンティスト三部作・完結編
「さらば!データサイエンティスト」
 つくり方:データサイエンティストグループの構築
 つかい方:仕事を依頼する側のリテラシーの話
 今回は定義論もあるあるも活用方法も無し
Slideshareにて公開中
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
NHKクローズアップ現代で統計ブーム特集
 “統計学を使いこなす「データサイエンティスト」と呼
ばれる専門職は「最もセクシーな(魅力的な)職業」だ
として、多くの企業から引く手あまたの状況だ。”
http://www.nhk.or.jp/gendai/yotei/index_yotei_3375.html
Google Trendsによる検索人気度のMAX:
第2回時の3倍、第1回時の15倍
7
データサイエンティスト協会設立
→役割の定義と育成へ
http://www.datascientist.or.jp/
各社による育成ビジネス
http://www.albert2005.co.jp/release/archives/201307/29_120043.html
http://www.brainpad.co.jp/news/2013/pdf/0806.pdf
http://japan.emc.com/microsites/bigdata/why-big-data-datascientist.htm
関連本の相次ぐ出版:今年4月以降だけでこれだけ
育成、データ分析、統計推し、事例集、情シスの逆襲
現時点での決定版:
データサイエンティスト養成読本(今見た)
 広いトピックがコンパクトにかつ初歩には必要十分
 データ分析基礎編、データサイエンス、R、NumPy、
機械学習、Fluentd、マーケティング分析、SNS分析、SQL
 インストール方法、サンプルも豊富に載ってる
 データサイエンティストを目指すなら必読
本日のキーメッセージ
データサイエンティストは…
養成できません!!!
(そう簡単には)
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
ビッグデータ分析の導入:まだまだこれから
 IBMの2012年調査
 24%がまだビッグデータ活用について調査段階
 47%がビッグデータ活用方法について検討段階
 わずか6%が導入してビジネス価値を生み出している
 導入の困難さと効率化の困難さがやや混同されている
IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
ビッグデータ
解析
データ
アナリティクス
ビ
ッ
グ
デ
ー
タ
ビッグデータ分析の現状:ブラックボックス?
15
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
データ
サイエンティスト
ビ
ッ
グ
デ
ー
タ
ビッグデータ処理系と解析ソフトウェアの組合せ
16
データサイエンティスト
ビッグデータ処理系
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
大規模DB
解析ソフトウェア
ビッグデータ分析の導入と効率化における3つの壁
IT
1
2
3
 パターン1:ビジネスに結びつける組織・体制
 パターン2:データ収集と蓄積の基盤
 ☆パターン3:解析の手法とスキルと効果測定
壁パターン1:ビジネスに結びつける組織・体制
 経営陣による戦略決定、組織横断のチームづくり
 関係部門全てに対する負担要請と利害調整
 ビッグデータ分析の効果の公平な分配
壁パターン2:データ収集と蓄積の基盤
 データが収集されていない、組織内にはるが出て来ない
 蓄積するための統合ITインフラが用意されていない
 部門単位でコストをかけるにはリスクが高すぎる
…そこをなんとか…
機密情報だからなー
個人情報保護もあるし。
そんなデータないよ。
え?新しく取れ?
(面倒だな…)
データサイエンティスト
マネージャー
現場社員
壁パターン3:解析の手法とスキルと効果測定
 統計学が重要というコンセプトレベルでは皆同意
 一方でデータサイエンティストへの過度の期待
 「うちのビジネスをよく理解してくれて〜」
 「コミュニケーション能力とPM力高くて〜」
 「統計も機械学習の最新技術も全部わかってて〜」
 「PDCAサイクル回すの手伝ってくれて〜」
あー完璧なデータサイエンティスト
どっかにいないかな〜
上層部
データサイエンティスト
……………………
スキルの問題:教育によりある程度解決する見込み
 真実:完璧なデータサイエンティストは存在しない
Communication
Skill
Business
Understanding
Project
Management
第3の支え:進化した解析用ソフトウェア
今ほとんど触れられることのない部分
ビッグデータ分析
ビッグデータ
ITインフラ
統
計
学
デ
ー
タ
サ
イ
エ
ン
テ
ィ
ス
ト
進
化
し
た
解
析
用
ソ
フ
ト
現状使われているソフトウェア群
RDB / NoSQL Hadoop / SQL-like
Analytics
○○○出現以前のビッグデータ分析プロセス
[データサイエンティスト w/ Hadoop+R+Weka, 2013]
ビ
グ
デ
ー
タ
データサイエンティスト
ビッグデータ処理理系
需要予測
故障予知
パーソナライズ
マーケ最適化
⼤大規
模
DB
解析ソフトウェア
プログラム言語出現以前のプログラミング
[ENIAC, 1946]
出典:wikipedia.org
 急募!配線エンジニア
 設計書通りに壁の穴から穴へ配線を繋ぐだけの簡単なお仕事
 これからのコンピュータ時代に求められるスキルが身につきます!
解析ソフトウェアの進化:あまり考慮されていない
今後もこれからのツールがずっと使われるのか?
 Matlab: 1984-
 SPSS: 1988-
 Weka: 1993-
 GNU R: 1996-
 元のS言語は
1984-
RDB / NoSQL Hadoop / SQL-like
Analytics
統計リテラシーの向上と解析ツールの進歩により
データサイエンティスト不要のケースが増大
ビ
グ
デ
ー
タ
需要予測
故障予知
パーソナライズ
マーケ最適化
データ分析担当者
新たな分析ツール群
健全なビッグデータ分析を実現するために
 ビッグデータという言葉によって
データとミドルウェアだけに注目が
集まっている
 そこで解決できない課題を人力で何
とかしてくれるデータサイエンティ
ストの出現と、その理想像に関する
議論が盛んに行われている
 組織の意識変革や経営陣・マネジメ
ント層の統計リテラシー向上も重要
だが、その他の変化も見失ってはい
けない
解析ソフト
人
組織
データ
ミドルウェア
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
解析ソフトウェアの進化とは
 何が解析ソフトウェアをどう変えるのか
 メモリの大容量化→インメモリ処理のスケーラビリティ向上
 仮想化技術→面倒なデータ管理をユーザーから隠蔽
 ネットワークの高速化→処理結果を瞬時に伝送可能
 ブラウザ上GUIの進化→ブラウザからカンタンにに使えるUI
 クラウド→環境構築と性能増減のコストがほぼゼロに
 進化した解析ソフトウェアの特徵
 インメモリ動作:解析処理のインタラクティブ性を重視
 クラウド、SaaS化:データは向こう側に置いて結果だけ得る
 使いやすいUIに特化:ユーザーの敷居を出来る限り下げる
 シンプルな課金体系:無料トライアル+機能x月額料金
紹介する実例
 インタラクティブなデータ可視化ツール
 QlikView
 Tableau
 表形式データ加工ツール
 Fivetran
 カンタンに使える機械学習ツール
 bigML
 Bazil
 データサイエンティストのお助けツール
 MLbase
 maf
インタラクティブなデータ可視化(1/2)
QlikTech - QliKview (1996-)
 従来のBIツールとの違い:セルフサービス型
 データをインメモリで保持しビューをその場で変更可能
 複数の情報源を透過的に組合せ検索しながら深堀り・絞込み
 概要ムービー
インタラクティブなデータ可視化(2/2)
Tableau (2003-)
 VizQLという独自の可視化クエリ言語に基づいたシステム
 Amazon EC2で動作可能、クラウドサービスもリリース
 サンプルデモ
表形式データ加工ツール:
Fivetran (2013-)
 完全ブラウザベースで表形式データの処理を実行
 「ExcelとMatlabの間」→サンプルデモ
 独自の処理クエリを入力すると結果が次の表になる
 単なる変換から集計、時系列分析まで機能を拡張中
カンタンに使える機械学習ツール(1/2)
bigML (2012-)
 “Machine Learning for Everyone”
 決定木アルゴリズムによる学習&予測フローを固定化
 パラメータ調整や結果の表示を重視
 動作デモ
分析
担当者
テキスト ログ/履歴
Webブラウザ クラウド
予測要因 予測評価
数値データ
カンタンに使える機械学習ツール(2/2)
Preferred Infrastructure - Bazil (2013-)
 “Machine Learning for Everyone”
 決定木アルゴリズムによる学習&予測フローを固定化
 パラメータ調整や結果の表示を重視
 動作デモ
データサイエンティストのお助けツール(1/2)
UC Berkley - MLbase in BDAS(2013-)
 機械学習タスクの実行クエリを抽象的に記述
 アルゴリズムやパラメータを変更して分散実行
[Kraska+, CIDR2013]
データサイエンティストのお助けツール(2/2)
Preferred Infrastructure – maf (2013-)
 アルゴリズムやパラメータを変更して実行
 wafベース、設定から可視化(matplotlib)までを
pythonコードとして簡単に記述できる
解析ソフトウェアの変化がもたらすもの:
データサイエンティストの負担が減る
 今は非力でもソフトウェアの高性能化と抽象化が後押し
 不要になる:面倒なデータ管理や前処理の繰り返し
 自動化される:実験設定を変更しては再実行の試行錯誤
 敷居が下がる:一般ユーザーがExcelのようにこなせる仕事
従来のソフトウェア基盤 新しいソフトウェア基盤
BI
・例:Cognos、BusinessObjects
・DB上でのバッチ処理
・固定のビュー・ドリルダウン
・定型的なレポート中心
・例:QlikView、Tableau
・インメモリで高速処理
・自由に変更可能なビュー
・インタラクティブな分析
機械学習
・例:R、MATLAB
・任意の解析処理が実現可能
・専用スクリプトの記述が必要
・結果の解釈は重視されていない
・例:bigML、Bazil
・解析フローは固定、調整可
・スクリプト無し、設定のみ
・結果の可視化なども統合
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
まとめ
 ビッグデータ分析を効率化するためのソフトウェアが
必ずこれからどんどん市場に出てきます
 この解析ソフトウェアの進化は、データインフラの整
備、統計リテラシーの向上、組織的ビッグデータ戦略の
浸透、データサイエンティストの育成と並行して進みま
す
 重要なスキル、組織のIT戦略、ソフトウェア、ミドル
ウェア、ハードウェア、コンピュータアーキテクチャは
刷新サイクルはがそれぞれ異なります
 それを見極めるのが最先端を逃さないために重要です
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
作者のあとがき
 良くも悪くも全てはポジショントーク!
 データサイエンティストとして自分を高く売りたい人
 育成ビジネスで儲けたい研修サービス会社
 ブームに乗って関連本を売りたい出版社
 最終的にIT投資を増やして欲しいベンダー
 ネットでちょっとウケて目立ちたかった僕
ブームに乗せられるのではなく、乗る
 ビッグデータとかデータサイエンティストとかの言葉は
滅びるかもしれない
 けど以下の事実は不変
 収集できるデータの量、品質、種類が増える
 データ分析を支えるツールの使いやすさと計算能力が上がる
 経営陣、マネジメント層にデータ活用の意識が高まる
 これまでデータ活用で何かを成し遂げようとしたときに
障害となってきたデータ/ソフト/ハード/組織の壁が
どんどん低くなりつつある
 これらのハードルをギリギリで飛び越えて結果を出した
勇者のみがデータサイエンティストを名のれる!!
 まぁ観念論はこの辺にして、Excel作業に戻ろうか…
Have a
happy data scientist life!!
そんじゃーね!
1 of 45

More Related Content

Similar to さらば!データサイエンティスト(20)

Yahoo! JAPANを支えるビッグデータプラットフォーム技術Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク6.2K views
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
Recruit Lifestyle Co., Ltd.9.8K views
課題解決エンジンを支えるデータ処理システムと利活用事例課題解決エンジンを支えるデータ処理システムと利活用事例
課題解決エンジンを支えるデータ処理システムと利活用事例
Yahoo!デベロッパーネットワーク2.2K views
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク10.7K views
WebDB Forum 2013 WebDB Forum 2013
WebDB Forum 2013
Recruit Technologies7K views
20190606_ml_and_buisiness20190606_ml_and_buisiness
20190606_ml_and_buisiness
Yoichi Tokita240 views
ビッグデータとクラウドソーシングビッグデータとクラウドソーシング
ビッグデータとクラウドソーシング
tokyowebmining-common2.8K views
「Data Infrastructure at Scale 」#yjdsw4「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
Yahoo!デベロッパーネットワーク584 views

More from Shohei Hido(20)

Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido44.1K views
NIPS2017概要NIPS2017概要
NIPS2017概要
Shohei Hido4.3K views
Chainer GTC 2016Chainer GTC 2016
Chainer GTC 2016
Shohei Hido15.9K views
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
Shohei Hido6.8K views
機械学習CROSS 後半資料機械学習CROSS 後半資料
機械学習CROSS 後半資料
Shohei Hido7.2K views
機械学習CROSS 前半資料機械学習CROSS 前半資料
機械学習CROSS 前半資料
Shohei Hido18.7K views
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
Shohei Hido6.2K views

さらば!データサイエンティスト