More Related Content Similar to Estimating conversionrateindisplayadvertisingfrompastperformancedata Similar to Estimating conversionrateindisplayadvertisingfrompastperformancedata (20) Estimating conversionrateindisplayadvertisingfrompastperformancedata1. Estimating Conversion Rate in
Display Advertising from Past
Performance Data
Kuang-chih Lee, Burkay Orten, Ali Dasdan, Wentong Li
Turn Inc., Redwood City, CA, USA
(KDD 2012)
05/02 2013
D2 大知 正直@東大 松尾研
1
4. モチベーション
• 広告出稿の入札をする側
– 広告を提示するユーザ,ページの価値を正確に測定
したい
• CVRを正確に見積もる
• 課題
– 通常、CVRは0.0001~0.1%程度で極めて少ない
• ユーザ,ページ,広告の組み合わせで十分なCV数をチェッ
クすることができない
– 階層化,”implicit”なクラスタリングで解決
– 入札まで5m sec~10m sec
• 時間的制約が強く,計算量が少なくかつ正確な測定法が必要
– ロジスティック回帰で解決
4
本論文ではこの2つの課題を解決するCVR見積もり手法を提案している
5. Overiew of Ad Call Flow
1.Introduction
• 本論文の貢献
– 広告出稿者側が出稿すべき広告の選定が可能になる
– 入札価格を決定できる
5
ユーザ,ページ,広告の組み合わせ時の正確なCVRの見積もり手法
6. Problem Setup and Formulation
1.Introduction
• 最適な広告の選定
• CVを確率的に発生するイベントと捉える
• 問題設定
6
ユーザ,ページ,広告の組み合わせ時の正確なCVRの見積もり手法
7. Problem Setup and Formulation
1.Introduction
• ユーザ個人のCVRを見積もらずクラスタリング
して最尤推定で計算
7
User, page, adの組み合わせでのデータスパースネスをデータに階層構造を
持たせることで解決
PV数CV数
9. Past Performance at Different Hierarchical Levels
3.Conversion Rate Estimation
9
提案)1つ1つのCVR予測器は弱いが,組み合わせることで強力にできる
10. Combining Estimators using Logistic Regression
3.Conversion Rate Estimation
• ロジスティック回帰を利用して各予測器に最適
な重み付けを行う
• 各予測器を組み合わせたCVR予測の再定義
• 最適なパラメータベクトルβを決めたい
• ロジスティック回帰
– メリット)0~1になり,確率値に変換できる
10
11. Combining Estimators using Logistic Regression
3.Conversion Rate Estimation
• 各PVに対する対数尤度関数
• 最適なβの推定
11
各PV
通常β*はニュートンラフソン法で求める(PRML 4.3章を参考)
12. Data Imbalance & Output Calibration
4. Practical Issues in Conversion Rate Estimation
• CV/非CV 率が非常に低い
– CVしたデータは全て利用
– 非CVデータはサンプリングして利用
• 影響は調査する
• スコアを区間で分割し,キャリブレーション
12
13. Data Imbalance & Output Calibration
4. Practical Issues in Conversion Rate Estimation
• 区間ごとのCV率の凹凸のスムージングはPool
Adjacent Violators Algorithm (PAVA) を利用
• 実際のCVRは内分して算出
13
14. Missing Features
4. Practical Issues in Conversion Rate Estimation
• データが無い場合の補正
– ユーザプロファイルサーバに無いユーザID,カテゴ
リに分類できないウェブページ
– ガウス分布を仮定して、条件付きガウス分布による
補正を行う
14
補正の効果も調査。条件付きガウス分布の導出は(PRML 2.3章を参考)
補正値
15. Feature Selection
4. Practical Issues in Conversion Rate Estimation
• 階層化に利用する属性
– 65%以上のデータが持っている属性
– データを持っていても属性の分散が10^-8以下のもの
は利用しない
15
具体的に何を利用したかは不明
16. Data Imbalance and Score Calibration
5. Experimental Results and Discussion
• 訓練データのCV/非CV率影響
• AUC,ROC スコアの閾値を変えたときの正解,
不正解の変化を面積で表したもの
– 大きいほど良い
16
IRによる差は無かった
Imbalance
Ratio
18. Baseline Estimators vs Logistic Regression
5. Experimental Results and Discussion
• 実験条件
– 2012年1月の2週間のログを利用
• 始めの1週間を訓練,残りの1週間をテストとする
– 広告群は5種類(車,贈り物・・・等、それぞれ100
万単位のPV数/日)
– あるユーザがページ,広告を見たときにCVするかし
ないかを予想
19
19. Baseline Estimators vs Logistic Regression
5. Experimental Results and Discussion
• 提案手法の効果
– Baseline1:
• ユーザの年齢,性別,居住地域などのデモグラフィックな属
性によるクラスタリングと広告群による推定
– Baseline2
• 広告群を見たユーザと特定の広告による推定
20
20. Baseline Estimators vs Logistic Regression
5. Experimental Results and Discussion
• 結果
– Logistic RegressionがB1に対して28.2%,B2に対し
て5.92%良かった
21
21. 結論と感想
6. Conclusion
• 結論
– RTBに対する高速なCVR推定手法を提案した
– 階層構造をうまく作れればより精度が高まるだろう
• 感想
– CV率に対応したユーザクラスタリングについてはあ
まり言及がなかったのは残念
• 他の論文をあたる
22