SlideShare a Scribd company logo
1 of 35
Download to read offline
顧客データを基にしたHivemallによる成約率予測
2018-04-17
レバレジーズ株式会社 ⼩原陽介
⽬次
1. 会社概要
2. ⾃⼰紹介
3. 背景
4. Hivemallを⽤いた予測モデルの構築
5. まとめ
⽬次
1. 会社概要
2. ⾃⼰紹介
3. 背景
4. Hivemallを⽤いた予測モデルの構築
5. まとめ
1.会社概要
❖ 名称
レバレジーズ株式会社
❖ 設⽴
2005年4⽉6⽇
❖ 事業内容
⾃社メディア事業
⼈材関連事業
システムエンジニアリング事業
1.会社概要 ~事業紹介~
1.会社概要 ~成約までのフロー~
病院
ユーザー
営業
⾯談・提案・⾯接設定 ⾯接
提案・⾯接設定
1.会社概要 ~成約までのフロー~
病院
ユーザー
営業
⾯談・提案・⾯接設定 ⾯接
提案・⾯接設定
1.会社概要 ~成約までのフロー~
病院
ユーザー
営業
⾯談・提案・⾯接設定
提案・⾯接設定
⾯接
1.会社概要 ~成約までのフロー~
病院
ユーザー
営業
⾯談・提案・⾯接設定
提案・⾯接設定
成約
⾯接
⽬次
1. 会社概要
2. ⾃⼰紹介
3. 背景
4. Hivemallを⽤いた予測モデルの構築
5. まとめ
❖ ⼩原陽介
❖ 2015年に⼊社しCRMチームに配属
❖ 配属後はMA(マーケティングオートメーション)の運⽤や
CRMシステムの設計・データ整備を担当
❖ 現在はメディカル事業部におけるデータ活⽤領域全般を担当
➢ 営業がユーザーに求⼈を提案する際のレコメンド設計/登録数予測/
事業部の課題分析/⼈員配置最適化モデル設計etc
2.⾃⼰紹介
⽬次
1. 会社概要
2. ⾃⼰紹介
3. 背景
4. Hivemallを⽤いた予測モデルの構築
5. まとめ
3.背景 ~事業課題~
CRMシステム
❖ 課題1:Web上の⾏動ログを営業が活⽤出来ていない
➢ ユーザーのWeb上の⾏動をリアルタイムで把握できない
❖ 課題2:ユーザーのうちどのユーザーが成約する可能性が⾼いか判断がつかない
➢ 休眠顧客にアプローチする際に適切な優先順位が付けられない
3.背景 ~TreasureData導⼊前の取り組み~
CRMシステム
分析ツール
❖ 導⼊前の状態:各⾏動(Aページ閲覧/Bページ閲覧/メールクリック…etc)が
   登録にどの程度寄与するかどうか計算
➢ 問題1:チューニングにコストがかかる(都度データを落として分析する必要がある)
➢ 問題2:ログの量が増えると計算が⾏えなくなる
⇒システム内で⾃動で計算を⾏う事が望ましい
⽬次
1. 会社概要
2. ⾃⼰紹介
3. 背景
4. Hivemallを⽤いた予測モデルの構築
5. まとめ
4.予測モデルの構築 ~今回の取り組み~
❖ ユーザーの属性データ・⾏動ログを基にユーザーが成約する確率を、
   ロジスティック回帰を⽤いて予測する。
➢ 属性データ:年代/希望転職時期/希望勤務形態…etc
➢ ⾏動ログ:登録後30⽇間のサイト閲覧ログ・メールクリックログ・広告閲覧ログ
登録 30⽇間の⾏動ログ 成約
年代:20代
希望転職時期:3ヶ⽉以内
…
4.予測モデルの構築 ~今回の取り組み~
登録 30⽇間の⾏動ログ 成約
年代:20代
希望転職時期:3ヶ⽉以内
…
❖ ⾯談が⾏えているユーザーは⾯談情報が取得できているので、
   登録ユーザーモデル・⾯談ユーザーモデルに分けて予測する。
   特徴量として使⽤するデータは下記のように異なる。
➢ 登録ユーザーモデル:登録時属性データ+⾏動ログ
➢ ⾯談ユーザーモデル:登録時属性データ+⾏動ログ+⾯談時ヒアリングデータ
(希望年収/離職中かどうか…etc)
4.予測モデルの構築 ~①データの前処理~
■⾏ったこと
・属性データと各⾏動ログの紐付け
・各⾏動ログに対して、登録⽇時
 から30⽇以内の⾏動回数を集計
・属性情報のうち、
1対多で保持しているデータを整形
・異常値と思われる値を除外
(Ex.転職回数…999回)
コード(⼀部抜粋)
実⾏結果イメージ
id order age_20 click
1 0 1 3
2 1 0 10
4.予測モデルの構築 ~②配列化~
■⾏ったこと
・各特徴量をadd_bias関数、
array関数、concat関数を⽤いて
配列化(ロジスティック回帰を⾏うため
には配列化が必要)
・量的変数に対して、最⼩:0、最⼤:1に  
なるようにrescale関数を⽤いて正規化
・テストデータと評価データに分ける際に
偏りを⽣じさせないために、
「CLUSTER BY rand()」 を⽤いて
データをシャッフル
id order age_20 click
1 0 1 3
2 1 0 10
id label features
1 0 [1:1,2#0.03, ]
2 1 [1:0,2#0.10, ]
クリック数の最⼤値:100
最⼩値:0
4.予測モデルの構築 ~③偏回帰係数の算出~
■⾏ったこと
・テストデータとして全データの80%を
抽出
・予測精度を上げるために、
amplify関数を⽤いてテストデータを
反復させた後rand_amplifyで 
データをシャッフル
・logress関数を⽤いて
ロジスティック回帰を実⾏し、
各特徴量毎の偏回帰係数を算出
前処理(⼀部抜粋)
コード(⼀部抜粋)
実⾏結果イメージ
features weight
1 -0.1
2 2
… …
4.予測モデルの構築 ~④成約率の算出~
id label features
1 0 [1:1,2#0.03]
2 1 [1:0,2#0.10]
lateral view explode(features)
id label feature value
1 0 1 1
1 0 2 0.03
2 1 1 0
2 1 2 0.10
■⾏ったこと
・評価データとして全データの
20%を抽出
・explode関数により配列を展開
・「偏回帰係数(weight)×
特徴量の重み(value)」を⾜し合わせて
成約スコアを算出
・sigmoid関数を⽤いて成約スコアを
成約率に計算
4.予測モデルの構築 ~④成約率の算出~
features weight
1 -0.1
2 2
id label score
1 0 -0.04
2 1 0.2
sum(weight *value)
id label feature value
1 0 1 1
1 0 2 0.03
2 1 1 0
2 1 2 0.10
(=(-0.1) * 1 + 2 * 0.03)
(=(-0.1) * 0 + 2 * 0.1)
■⾏ったこと
・評価データとして全データの
20%を抽出
・explode関数により配列を展開
・「偏回帰係数(weight)×
特徴量の重み(value)」を⾜し合わせて
成約スコアを算出
・sigmoid関数を⽤いて成約スコアを
成約率に計算
4.予測モデルの構築 ~④成約率の算出~
■⾏ったこと
・評価データとして全データの
20%を抽出
・explode関数により配列を展開
・「偏回帰係数(weight)×
特徴量の重み(value)」を⾜し合わせて
成約スコアを算出
・sigmoid関数を⽤いて成約スコアを
成約率に計算
■参考
・シグモイド関数
⇒今回のモデルでは-∞~+∞の値(スコア) 
  を0~1(確率)に変換するために
  使⽤している
  ))0(
1
1
( 

 
a
e
xf ax
引⽤元:
https://ja.wikipedia.org/wiki/シグモイド関数
4.予測モデルの構築 ~④成約率の算出~
コード(⼀部抜粋)
実⾏結果イメージ
id label score order_probability
1 0 -0.04 40%
2 1 0.2 65%
■⾏ったこと
・評価データとして全データの
20%を抽出
・explode関数により配列を展開
・「偏回帰係数(weight)×
特徴量の重み(value)」を⾜し合わせて
成約スコアを算出
・sigmoid関数を⽤いて成約スコアを
成約率に計算
4.予測モデルの構築 ~⑤モデル評価指標の算出~
■⾏ったこと
・成約スコアが⾼いユーザーから順に
実際に成約したユーザーの数だけ
予測ラベル(=predict)に1を付与
・評価指標はAUC,正解率(Accuracy),
適合率(Precision)を使⽤
・AUCはauc関数を⽤いて算出した。
正解率(Accuracy)適合率(Precision)
は正解ラベルと予測ラベルを基に算出した
id label score
121 1 3.5
35 0 3.3
223 1 3.2
… … …
19 0 -2.5
predict
1
1
1
…
0
AUC Accuracy Precision
○○○ ××% %
4.予測モデルの構築 ~Workflowによる⾃動化~
■⾏ったこと
・配列化~評価指標算出までの
 クエリ実⾏をWorkflowを⽤いて
 ⾃動化した
・モデルの評価指標、偏回帰係数を
 確認するために、Workflowを50回
 実⾏し各評価指標・偏回帰係数の
 平均値を算出した
Workflow(⼀部抜粋)
4.予測モデルの構築 ~評価指標結果~
50回試⾏した際の平均値
種類 AUC 正解率 適合率
登録 0.750 88.2% 3.45倍
面談 0.688 75.6% 4.57倍
❖ 特徴量が多いにも関わらず、⾯談ユーザーモデルの⽅がAUCが低くなった
➢ 原因:データ数が少なく精度が出なかった可能性がある
⇒⾯談ユーザーモデルで使⽤した対象(⾯談出来たユーザーのうち、
使⽤している特徴量が全て⼊⼒されているユーザー数)は
登録ユーザーモデルの 40%以下
※適合率はランダムに
予測を⾏った場合に対する⽐率
⽬次
1. 会社概要
2. ⾃⼰紹介
3. 背景
4. Hivemallを⽤いた予測モデルの構築
5. まとめ
5.まとめ ~収穫・改善点~
❖ 収穫
➢ Hivemallを⽤いて成約率予測を⾃動で⾏う⼀連の流れを実装することが出来た
➢ 登録ユーザーモデルに関してはAUC=0.750とある程度の精度を出すことが出来た
(各特徴量における偏回帰係数も現場の肌感と整合性が取れていた)
❖ 改善点
➢ ⾯談ユーザーモデルに⽤いるデータ数を増やす
■  データ抽出期間を広く取る・⽋損値補完を⾏う(多重代⼊法…etc)
➢ ⾏動ログの特徴量をより細かく設計する
■ スクロール距離/滞在時間/…etc
➢ ユーザー側だけでなく、求⼈側のデータを特徴量に組み込む
■ 紹介可能求⼈数/エリア毎の平均給与…etc
➢ ロジスティック回帰だけでなく、他の⼿法を取り⼊れる
■ ランダムフォレスト/Factorization Machines…etc
➢ 不均衡データ(成約した⼈の割合が少ないデータ)に対する対策を⾏えていない
■ アンダーサンプリング/オーバーサンプリング…etc
5.まとめ ~事業課題(再喝)~
CRMシステム
❖ 課題1:Web上の⾏動ログを営業が活⽤出来ていない
➢ ユーザーのWeb上の⾏動をリアルタイムで把握できない
❖ 課題2:ユーザーのうちどのユーザーが成約する可能性が⾼いか判断がつかない
➢ 休眠顧客にアプローチする際に適切な優先順位が付けられない
5.まとめ ~今後の展望~
CRMシステム
❖ 今後の展望1:Web上の⾏動ログをCRMシステムに返す連携の構築
➢ ユーザーのWeb上の⾏動をリアルタイムで把握出来るようになる
❖ 今後の展望2:Hivemallで算出した成約率をCRMシステムに返す連携の構築
➢ 成約率が⾼いユーザーが分かることで、休眠顧客アプローチの際に
適切な優先順位付けが出来るようになる
5.まとめ ~直⾯している課題~
CRMシステム
❖ 課題:(成約率予測に限らず)データ活⽤の結果を現場に使ってもらう事は
   容易ではない(中⾝がよく分からない・今まで成功してきたやり⽅を継続したい)
➢ 現場で影響⼒が強い⼈間を協⼒者にして進めることが⾮常に⼤事
➢ 現場への普及活動を怠ってはならない
ご清聴ありがとうございました。
4.予測モデルの構築 ~②配列化~(参考)
■苦労した点
・rescaleの際にエラーが起きる
⇒データ型が間違っている・Nullの
 データが⼊っているなどが
 原因だったので、それぞれ対処
・rescaleを使⽤する際に最⼤値、
最⼩値が必要になるが、
ベタ書きではなく動的に扱いたい
⇒別のクエリで算出して統計データ
 ⽤テーブルに⼊れた後必要に
  応じて呼び出す
コード(⼀部抜粋)
実⾏結果イメージ
id label features
1 0 [1:1,2#0.03, ]
2 1 [1:0,2#0.10, ]
4.予測モデルの構築~⑤モデル評価指標の算出~(参考)
■使⽤したモデル評価指標
・AUC(Area under the curve)
⇒ROC曲線下の⾯積であり、
  分類器の性能の良さを表す指標。
  ランダムの分類では0.5となり、
  0.7を越えることが⼀つの⽬安となる
・正解率(Accuracy)
⇒予測結果全体と実際の結果が
  どの程度⼀致しているかを⽰す指標
・適合率(Precision)
⇒成約すると予測した中で、 実際の
  結果も成約であった割合 ROC曲線
引⽤元:
https://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html

More Related Content

Similar to 顧客データを基にしたHivemallによる成約率予測

Kpiの設定(クロスセル・アップセルを行う)
Kpiの設定(クロスセル・アップセルを行う)Kpiの設定(クロスセル・アップセルを行う)
Kpiの設定(クロスセル・アップセルを行う)e-sales-support
 
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~正善 大島
 
デジタルマーケティング戦略策定
デジタルマーケティング戦略策定デジタルマーケティング戦略策定
デジタルマーケティング戦略策定Flyke1
 
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoiSHIFT Inc.
 
Tcアドバイザリー業務の7ケース
Tcアドバイザリー業務の7ケースTcアドバイザリー業務の7ケース
Tcアドバイザリー業務の7ケースsinrock
 
【経営支援クラウドツール plutra】07. 目標数値
【経営支援クラウドツール plutra】07. 目標数値【経営支援クラウドツール plutra】07. 目標数値
【経営支援クラウドツール plutra】07. 目標数値MIRAISM, inc.
 
アドバイザリー業務:7つのケース(事例)
アドバイザリー業務:7つのケース(事例)アドバイザリー業務:7つのケース(事例)
アドバイザリー業務:7つのケース(事例)sinrock
 
2018工業経営(九産大)⑤
2018工業経営(九産大)⑤2018工業経営(九産大)⑤
2018工業経営(九産大)⑤Tsutomu TOBITA
 
コースC 「EC運営」Ver.2.0
コースC 「EC運営」Ver.2.0コースC 「EC運営」Ver.2.0
コースC 「EC運営」Ver.2.0Osamu Sugiura
 
Crystal Ball - 9.Difine Forecast and Simulation Setting
Crystal Ball - 9.Difine Forecast and Simulation SettingCrystal Ball - 9.Difine Forecast and Simulation Setting
Crystal Ball - 9.Difine Forecast and Simulation SettingKaitoKojima
 
経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性guest7b4d4e0b
 
経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性Takashi, ASANO
 
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ - Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ - Mitch Okamoto
 
第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料
第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料
第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料Tae Yoshida
 
2018工業経営(九産大)⑤
2018工業経営(九産大)⑤2018工業経営(九産大)⑤
2018工業経営(九産大)⑤Tsutomu TOBITA
 
2015経営分析論ⅱ⑦
2015経営分析論ⅱ⑦2015経営分析論ⅱ⑦
2015経営分析論ⅱ⑦Tsutomu TOBITA
 
Webディレクター・マーケターのためのSQL教室 2015/07/13
Webディレクター・マーケターのためのSQL教室 2015/07/13Webディレクター・マーケターのためのSQL教室 2015/07/13
Webディレクター・マーケターのためのSQL教室 2015/07/13OWL.learn
 
受託でもデキるアジャイル開発
受託でもデキるアジャイル開発受託でもデキるアジャイル開発
受託でもデキるアジャイル開発Yoshiyuki Ueda
 

Similar to 顧客データを基にしたHivemallによる成約率予測 (20)

Kpiの設定(クロスセル・アップセルを行う)
Kpiの設定(クロスセル・アップセルを行う)Kpiの設定(クロスセル・アップセルを行う)
Kpiの設定(クロスセル・アップセルを行う)
 
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
 
デジタルマーケティング戦略策定
デジタルマーケティング戦略策定デジタルマーケティング戦略策定
デジタルマーケティング戦略策定
 
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
 
Tcアドバイザリー業務の7ケース
Tcアドバイザリー業務の7ケースTcアドバイザリー業務の7ケース
Tcアドバイザリー業務の7ケース
 
【経営支援クラウドツール plutra】07. 目標数値
【経営支援クラウドツール plutra】07. 目標数値【経営支援クラウドツール plutra】07. 目標数値
【経営支援クラウドツール plutra】07. 目標数値
 
アドバイザリー業務:7つのケース(事例)
アドバイザリー業務:7つのケース(事例)アドバイザリー業務:7つのケース(事例)
アドバイザリー業務:7つのケース(事例)
 
2018工業経営(九産大)⑤
2018工業経営(九産大)⑤2018工業経営(九産大)⑤
2018工業経営(九産大)⑤
 
コースC 「EC運営」Ver.2.0
コースC 「EC運営」Ver.2.0コースC 「EC運営」Ver.2.0
コースC 「EC運営」Ver.2.0
 
Crystal Ball - 9.Difine Forecast and Simulation Setting
Crystal Ball - 9.Difine Forecast and Simulation SettingCrystal Ball - 9.Difine Forecast and Simulation Setting
Crystal Ball - 9.Difine Forecast and Simulation Setting
 
経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性
 
経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性経営者の利益予想バイアスと市場の非合理性
経営者の利益予想バイアスと市場の非合理性
 
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ - Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
 
第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料
第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料
第4回SIA研究会(例会)プレゼン資料1_ m2 soft 紹介資料
 
2018工業経営(九産大)⑤
2018工業経営(九産大)⑤2018工業経営(九産大)⑤
2018工業経営(九産大)⑤
 
Application System導入価値を取り戻す“測る化”とは
Application System導入価値を取り戻す“測る化”とはApplication System導入価値を取り戻す“測る化”とは
Application System導入価値を取り戻す“測る化”とは
 
2015経営分析論ⅱ⑦
2015経営分析論ⅱ⑦2015経営分析論ⅱ⑦
2015経営分析論ⅱ⑦
 
Webディレクター・マーケターのためのSQL教室 2015/07/13
Webディレクター・マーケターのためのSQL教室 2015/07/13Webディレクター・マーケターのためのSQL教室 2015/07/13
Webディレクター・マーケターのためのSQL教室 2015/07/13
 
受託でもデキるアジャイル開発
受託でもデキるアジャイル開発受託でもデキるアジャイル開発
受託でもデキるアジャイル開発
 
ミキワメ 0131
ミキワメ 0131ミキワメ 0131
ミキワメ 0131
 

顧客データを基にしたHivemallによる成約率予測