ビジネスの現場の
データ分析における
理想と現実
株式会社リクルートコミュニケーションズ データサイエンティスト
尾崎 隆 (Takashi J. OZAKI, Ph. D.)

2013/11/28

1
一応、自己紹介を…

ブログ&Twitterやってます

2013/11/28

2
一応、自己紹介を…

ブログ&Twitterやってます

2013/11/28

3
一応、自己紹介を…

 現在は…

2013/11/28

4
一応、自己紹介を…

 現在は…

リクルートグループ全体のマーケティングにおける
データ分析を担当するデータサイエンティスト

2013/11/28

5
本日のお品書き

 データサイエンティストが思い描く「理想」

 ビジネスの現場における「現実」

 「理想」と「現実」の折り合いをうまくつけて、データ分析で価値
を発揮していくには?

2013/11/28

6
おことわり

今日は分析手法の話とか、
難しい話は一切いたしません

2013/11/28

7
おことわり

今日はアドホック分析業務の
現場でよくある話をします

※学生の方が多い会だと聞いてきたもので…

2013/11/28

8
本日のお品書き

 データサイエンティストが思い描く「理想」

 ビジネスの現場における「現実」

 「理想」と「現実」の折り合いをうまくつけて、データ分析で価値
を発揮していくには?

2013/11/28

9
データサイエンティストが思い描く「理想」

仕事の進め方では…
できる限り面白い仕事がしたいよね
あんまり煩雑なルーチンワークには
時間を取られたくないし
もちろんカンファレンスとかも出たいし

OSSとかにもコミットしたいな
データサイエンティスト

2013/11/28

10
データサイエンティストが思い描く「理想」

具体的な分析のやり方では…
基本通りp < 0.05じゃないと
表には出せないよね
バシッと機械学習使って厳密な
結果を出してナンボでしょ
MCMC使えば複雑なモデルを組み合わ
せて正確なパラメータ推定できるよ

データサイエンティスト

2013/11/28

やっぱりHadoop上でアルゴリズムを
分散させて一気に大容量でやりたいな

11
データサイエンティストが思い描く「理想」

データサイエンティストという立場の人々が
往々にして思い描く理想、それは…

2013/11/28

12
データサイエンティストが思い描く「理想」

「知的好奇心を満たせる仕事」

※昨年尾崎がポスドクを辞めて転職した際に、とある企業で
面談して下さった部長氏(素粒子物理Ph.D.出身)の言葉

2013/11/28

13
本日のお品書き

 データサイエンティストが思い描く「理想」

 ビジネスの現場における「現実」

 「理想」と「現実」の折り合いをうまくつけて、データ分析で価値
を発揮していくには?

2013/11/28

14
ビジネスの現場における「現実」

初めて分析業務の現場を見て…

データサイエンティスト

2013/11/28

15
ビジネスの現場における「現実」

初めて分析業務の現場を見て…

・・・・・・・・・・・・・・

データサイエンティスト

2013/11/28

16
ビジネスの現場における「現実」

彼(彼女)は何を見たのか?

2013/11/28

17
ビジネスの現場における「現実」

前処理

分析

レポート

これが一般的な流れですが…
2013/11/28

18
ビジネスの現場における「現実」

現実には…

2013/11/28

19
ビジネスの現場における「現実」

前処理

分析

レポート

これぐらいの比率だったりする

2013/11/28

20
ビジネスの現場における「現実」

つまり…

データサイエンティスト

2013/11/28

21
ビジネスの現場における「現実」

つまり…

データサイエンティスト

2013/11/28

22
ビジネスの現場における「現実」

つまり…

マエショリスト

2013/11/28

23
ビジネスの現場における「現実」

 「前処理が全工数の9割以上を占める」
 カラム定義が揃ってない複数テーブル間にデータが
分散していたり
 NAだらけだけど0を入れて補完するとまずいような
データが1TBぐらいあったり
 外注したデータなのでDBから取ってくるのではなく
全てCSVでン百GBぐらい降ってきたり

2013/11/28

24
ビジネスの現場における「現実」

現場にありがちなもう一つの仕事

データサイエンティスト

2013/11/28

25
ビジネスの現場における「現実」

現場にありがちなもう一つの仕事
うひー・・・

データサイエンティスト

データ分析基盤の保守運用
2013/11/28

26
ビジネスの現場における「現実」

 「え?crontabぐらい設定できるよね?」
 バッチ集計のスクリプトをコミットしたり
 バックエンド分析処理のコードをビルドしたり
 アラートメール出てたらリモートでログインして復旧
作業入ったり

・・・つまり「普通にエンジニア仕事もやる」という

2013/11/28

27
ビジネスの現場における「現実」

適応すべきは自分の影響が
及ぶ範囲だけではない

データサイエンティスト

2013/11/28

28
ビジネスの現場における「現実」

適応すべきは自分の影響が
及ぶ範囲だけではない
分析よろしくー
あ、はい・・・

データサイエンティスト

2013/11/28

ビジネスマネージャー

29
ビジネスの現場における「現実」

ビジネス側の人とデータ分析の話をすると…
は?機械学習?統計的検定?p値?AIC?重回
帰分析?何それ?ちょっと説明してくれる?
データ分析データ分析っていうけど、要は
Excelの関数うまく使いこなすことでしょ?

まだるっこしいこと言うなぁ。Aの平均の方が
Bの平均よりも大きいんだからAでいいじゃん
数学苦手だったからさぁ、ぶっちゃけ算数
より難しいもの見ても分からないんだよね

ビジネスマネージャー
※弊社および弊グループではビジネス側の人たちでも
データ分析諸系統に通じている人が沢山いるのでご安心を
2013/11/28

30
ビジネスの現場における「現実」

これくらい認識に差のある相手と
会話をしなければいけません

2013/11/28

31
ビジネスの現場における「現実」

なので、色々な悲喜劇が起きる

2013/11/28

32
ビジネスの現場における「現実」

決定木で一番良さそうなサイト
導線を選んでみました

決定木って何?この図全然見慣れ
なくて読みにくいよ。こんな変な
もの持ってこないで、普通にExcel
で集計したシート持ってきて

・・・・・・・・・

ビジネスマネージャー
データサイエンティスト
2013/11/28

※これはフィクションです
33
ビジネスの現場における「現実」
これさぁ、Excelで割合計算した結果
と食い違ってるじゃん。おかしいで
しょ?変に難しいことに手を出すと
危ないよ、やり直して

(単相関と偏相関の
違いなんだけど…)

重回帰分析の結果出ました。
偏回帰係数を見るとですね…

ビジネスマネージャー
データサイエンティスト
2013/11/28

※これはフィクションです
34
ビジネスの現場における「現実」
何でそんなに時間かかってるの?
データ渡したのだいぶ前だよね?
こんなの1日で終わるでしょ?

(前処理に時間か
かった上にSVM回し
終わるのに3日かか
るよ、そもそもあの
データ量だし…)

お待たせしてすみません、
機械学習にかけた結果です

ビジネスマネージャー
データサイエンティスト
2013/11/28

※これはフィクションです
35
ビジネスの現場における「現実」

あーあ、小難しいことは言わずに黙ってサクッと1日で言われ
た通りに売上が伸びる改善施策につながる分析結果持ってき
てくれるデータサイエンティストどこかにいないかなー

・・・・・・・・・・・・

ビジネスマネージャー
データサイエンティスト
2013/11/28

※これはフィクションです
36
ビジネスの現場における「現実」

不幸なすれ違いが続くと
危ないのは、恋愛と同じ

2013/11/28

37
本日のお品書き

 データサイエンティストが思い描く「理想」

 ビジネスの現場における「現実」

 「理想」と「現実」の折り合いをうまくつけて、データ分析で価値
を発揮していくには?

2013/11/28

38
折り合いをつけて、データ分析で価値を発揮していくには?

1.

2013/11/28

39
折り合いをつけて、データ分析で価値を発揮していくには?

1. そもそも話の通じるビジネス側
の人が多い他部署・他社に移る
やってられっかチクショー

データサイエンティスト
※身も蓋もないが、仕方ない場合も世の中にはある
2013/11/28

40
折り合いをつけて、データ分析で価値を発揮していくには?

2.

2013/11/28

41
折り合いをつけて、データ分析で価値を発揮していくには?

2. 日頃からビジネス側の人たちと
会話を密にする
いやぁ、この前の前処理5日も食っ
ちゃいましたよ、アハハハハ
そうか、全然知らなかったよ・・・
今度から余裕を持たせて依頼するよ
ビジネスマネージャー

データサイエンティスト
※ランチの席とかでネタっぽく実情を訴えるとか(笑)
2013/11/28

42
折り合いをつけて、データ分析で価値を発揮していくには?

3.

2013/11/28

43
折り合いをつけて、データ分析で価値を発揮していくには?

3. 科学コミュニケーションをする
つもりで対話せよ
簡単に言えば、この数字が大きい
ほどより○○だと思ってOKです
なるほどー。ってことは、そっちの別
の数字との関係性を見るには・・・
ビジネスマネージャー

データサイエンティスト
※デキるビジネス系の人ほど頭の回転が速いので、
こういう「概念」の理解も早い(経験的に)
2013/11/28

44
折り合いをつけて、データ分析で価値を発揮していくには?

4.

2013/11/28

45
折り合いをつけて、データ分析で価値を発揮していくには?

4. 相手のビジネス視点を自分の
ものにして話すべし
この分析結果から言って、来月のKPI○○
は××との相乗効果で売上高への・・・
そうそう、そこが知りたかったんだよ。
これが分かれば予算配分決められるし
ビジネスマネージャー

データサイエンティスト
※ビジネス系の人はビジネスの話をしたいのです
2013/11/28

46
折り合いをつけて、データ分析で価値を発揮していくには?

5.

2013/11/28

47
折り合いをつけて、データ分析で価値を発揮していくには?

5. 分析に少しでも詳しい人を見つ
けて味方にしてしまう
Aの方が説得力
ありますね

分析結果から言うと
Aの方が良さそうです
そうか、2人とも同意見
なら大丈夫そうだな

ビジネス側の人

ビジネスマネージャー
データサイエンティスト

2013/11/28

※持つべきものは味方。そして意外と大学が
経済学系出身とかで詳しい人は多いもの
48
折り合いをつけて、データ分析で価値を発揮していくには?

6.

2013/11/28

49
折り合いをつけて、データ分析で価値を発揮していくには?

6. 価値さえ認めてもらえるように
なれば、色々チャレンジできる
素晴らしい成果が出たし、今回
使ったネタでトップカンファレ
ンス出してみたら?
喜んで!頑張ってきます!

データサイエンティスト

こうなったらもっとR&Dにも
力を入れて行かなきゃね

ビジネスマネージャー

※NIPSとかKDDとか行かせてもらえることも
(弊社および弊グループにおける実例)
2013/11/28

50
ということで、「理想」と「現実」のせめぎ合いを見てきました

 データサイエンティストが思い描く「理想」

 ビジネスの現場における「現実」

 「理想」と「現実」の折り合いをうまくつけて、データ分析で価値
を発揮していくには?

2013/11/28

51
最後に

まだビッグデータ系のデータ分析部門は
どこも立ち上がったばかりなので、
自分好みの組織に作り上げてやりたい
ことをやろうと志す若い学生の皆さんに
とっては今がチャンスですよ!

2013/11/28

52

ビジネスの現場のデータ分析における理想と現実