SlideShare a Scribd company logo
1 of 34
Download to read offline
竞赛经验分享  
  个性化推荐,搜索广告,RTB  
    @严强Justin  
scmyyan@gmail.com  
报告内容  
•  介绍  
•  方法  
–  Recommendation  
–  Churn  Prediction  
–  Search  Ads  CTR  Prediction  
–  RTB  
•  经验  
–  Feature  
–  Model  
–  Ensemble  
•  总结  
比赛  
时间   比赛   成绩   排名  
2013.12     ICDM  2013  Personalize  Expedia  Hotel  
Searches  Contest  
NDCG@38:  0.53102   第五  
  2013.05   品友RTB算法大赛  Season  1  
(DSP  –  CTR  Prediction  +  Bidding
+Pacing)  
Score:1960   第一  
2013.04.14   Data  Science  London  Big  Data  
Hackathon  
(Find  Influencers  in  SNS)  
AUC:        0.8782   第二  
2013.03  --  2013.05   百度电影推荐算法大赛  
(Movie  Rec  –  Rating  Prediction)  
RMSE:0.5920   第二  
  
2012.11  --  2012.12   WSDM    Challenge  2013  
(SE  User  Churn  Prediction)  
AUC:  0.8433   第三  
2012.03  --  2012.05   KDD  CUP  2012  
(Search  Ads  CTR  Prediction)  
AUC:  0.8030   第三  
2011.03  –  2011.06   KDD  CUP  2011  
(Music  Rec  –  Rating  Prediction)  
RMSE:    19.90   第五  
方法  
•  Recommenda)on	
  –	
  百度电影推荐比赛	
  
Pre-­‐
process
User,	
  Movie,	
  Tag
User	
  
Topic
Movie	
  
Topic
Session
Time	
  Bin
Implicit	
  Feedback
Features
FM
FM-­‐GI
Models
CV-­‐based	
  
Ensemble	
  
(LR+GBDT+NN)
Test	
  
Ensemble	
  
(Ridge	
  Regression)
Ensemble
Post-­‐
process
LDA Mul>-­‐class	
  
LR
Ridge
Meta	
  Features
Item-­‐CF
PMF
方法  
•  Predic)on	
  –	
  Churn	
  Predic)on
方法  
•  Predic)on	
  –	
  Search	
  Ads	
  CTR	
  Predic)on	
  
Pre-­‐
process
User	
  Feature
Features
FM
Models
Rank-­‐based	
  
Ensemble	
  
Post-­‐
processSVM-­‐perf
BPR
Meta	
  Features
LR
Query	
  Feature
Ad	
  Feature
Combina)on	
  
Feature
RTB
•  DSP算法	
  
– CTR	
  Predic)on	
  
– Bidding	
  
– Pacing
Pre-­‐
process
User	
  Feature
Features
Models
Rank-­‐based	
  
Ensemble	
  
Post-­‐
process
BPRAd	
  Slot	
  Features
LR
Site	
  Feature
Ad	
  Feature
AdExchange	
  
Feature
Bidding	
  
Pacing	
  
Online	
  Stage
方法  
•  RTB
RTB  
•  CTR  –  Prediction  
–  Model  
•  LR-l1  (Sparse)  
•  AdPredictor  (Online  Learning)  
–  Feature  
•  用户:  区域、城市、User  Agent、(User  Tags)  
•  广告:  广告主ID、创意ID  
•  广告位:  type、size、可见性、形式  
•  Site:  域名  
•  Ad  Exchange:  Adx/Tanx/Tencent  
•  经验  
–  CTR预估不是关键  
–  优化Conversion  Rate很难  
RTB  
•  Bidding  
              基于价值的出价(与M6D的算法类似)  
  
                                                          展现的价值  =    点击概率*点击价值  
    出价模型:  
λ
)
),,|(
(*Pr
BaseCTR
aiucP
iceBasebid =
λ参数调节CTR对出价的影响程度。  
  
BasePrice和BaseCTR,λ三个参数,通过实验决定。调整原则
是使得预算刚好在时间结束时用完。  
  
RTB  
•  Pacing  
– 预估流量  
– 预算控制(预算、BaseCTR、BasePrice)  
•  分AdExchange  
•  分Campaign  
Framework
Pre_	
  
Processing
Feature	
  
Engineering
ModelData Ensemble
Post_	
  
Processing
Model
Ensemble
Feature
Feature
Feature  
•  特征分类  
– Low-level  vs.  High-level  
– 简单特征  vs.  组合特征  
以CTR预估为例:  
1,Query:长度、历史CTR;  
2,User:年龄、性别、历史CTR;  
3,Ad(AderBidWordTitleDesc
等):各种长度、各种历史CTR;  
  
4,Query与Ad的组合:  
5,Ad与User的组合;  
6,Query与User的组合:  
  
7,Query、Ad、User的组合。  
  
Feature  
•  特征设计  
– 刻画能力  
– 覆盖度  
刻画能力  
•  完美的特征  
•  ID  
•  ID  combination  
•弱特征  
•  Float类型特征  
          (各种相似度)  
•  一些低维度特征  
1  2  
3   4  
低  
弱  
覆盖度  
Model
Model  
•  模型选择  
–  问题类型  
•  推荐问题(MF,  FM)  
•  排序问题(BPR,  Pair-wise,  Rank  LR)  
•  分类/回归  
–  数据规模(样本、特征):  
•  KDD  CUP(十亿维特征,百万级样本)  
–  Online  Learning  
–  L1  >  L2  
•  WSDM(百万维特征,百万级样本)  
–  Rank  SVM  
–  L2  >  L1  
–  评价指标  
•  NDCG,AUC  (Ranking,  Classification)  
•  RMSE  (Regression)  
FM:  Factorization  Machine  
•  Model:  
  
  
•  场景:  推荐、回归、分类  
•  优化:  
– SGD、ALS、MCMC  
•  优点  
– Generalized  Model  Framework  
– Automatic  Feature  Combination  
FMGI:	
  FM	
  with	
  Group-­‐wise	
  Interac)on
•  FM存在的问题  
–  复杂度  
–  精度  
•  模型  
  
•  优化  
– SGD  
– MCMC  
用户
特征  
物品
特征  
社交
特征  
用户
属性  
物品
属性  
AdPredictor:	
  
Online	
  Bayesian	
  Probit	
  Regression
Ad	
  	
  ID
Posi)on
100
201
302
503
1
2
3
+
),0( 2
βN
Observe	
  Noise
AdPredictor:	
  
Online	
  Bayesian	
  Probit	
  Regression
•  应用场景:  CTR/Churn  Prediction  (Search  Ads,  RTB)  
•  优点  
–  Bayesian  Model  (Easy  to  add  domain  knowledge)  
–  Easy  to  parallelize  
–  Fast:  Online  Learning    
–  Less  Parameters  to  tune  
–  Model  Uncertainty  Explicitly    
–  Natural  Exploration  
•  Provide  a  way  to  add  randomness  elegantly  
  
•  缺点  
–  L2-Norm,  Not  Sparse  (vs.  LR-L1)    
•  Pruning    
–  Poor  performance  when  unbalanced/Rare  data  without  
sampling  
Model  vs.  Feature  
评价指标  
模型  
SVM
RF
NN
LR
LinearSVM
NN
LR
Linear
RF
Fea_Set_1
Fea_Set_2
*  Feature决定  UpperBound  
*  Model决定接近UpperBound的程度  
*  不同问题下Model的表现是不一样的  
Ensemble
Ensemble
•  方法:  
–  Validation  Based  
–  CV  Based  
……
Ra>ng Meta	
  
Features
ItemCF MF FM
Ensemble
•  Diversity  
做法的多样性
模型的多样性
特征的多样性
Classification Regression Ranking
Feature	
  Set Feature	
  Set
Ensemble
•  方法  
– Search  Based  
•  参数搜索  
– Learning  Based  
•  线性融合  
–  感知机、LR  
•  非线性融合  
–  NN,  GBDT  
•  基于pair-wise  
– Multi-Stage  Ensemble  
Ensemble
•  示例  
– 百度电影推荐比赛  
Feature  Pool  
Model   Model   Model  ....  
Ensemble   Ensemble  
Final  Result  
总结  
竞赛   工业界  
数据   固定,类干净的   流动,非常脏  
关注点   特征、模型   数据  
模型的重要程度   100%   <<100%  
数据集大小   小   大  
实时性要求  
(特征、模型)  
基本无   强  
评测指标   通常1个,且可以直
接优化  
通常多个,且不可直
接优化  
•  竞赛  vs.  工业界
总结  
•  竞赛的意义  
– 码农的运动会  
– 接触工业界问题,可以拿到实际数据  
– focus在模型、特征  
– 利于算法的创新、推广,技术的交流  
Acknowledgement
•  MLRush	
  Team@CAS	
  
•  RP	
  Team@baidu	
  
•  Liang	
  Xiang@hulu	
  
•  Danny	
  Bickson@CMU	
  
•  Quan	
  Yuan@taobao	
  
第三期个性化推荐技术周末实战班
•  2014年3月30日开课	
  
–  上午9点—12点	
  
–  下午1点-­‐-­‐5点半	
  
•  内容:	
  
–  推荐系统基础	
  
–  基于投票的推荐算法	
  
–  基于内容的推荐算法	
  
–  基于近邻模型的推荐算法设计	
  
–  基于矩阵分解及隐因子族模型的推荐算法	
  
–  企业级推荐系统设计和实践
CFP:	
  ACM	
  RecSys	
  2014	
  workshop	
  on	
  Large	
  Scale	
  
Recommenda)on	
  Systems	
  (LSRS	
  2014)
•  Tao	
  Ye,	
  	
  tye@pandora.com,	
  Pandora	
  Inc.	
  
•  Danny	
  Bickson,	
  bickson@graphlab.com,	
  GraphLab	
  Inc.	
  
•  Qiang	
  Yan,	
  yanqiang.yq@taobao.com,	
  Taobao	
  Inc.	
  
We	
  are	
  hiring!
一淘及搜索事业部	
  
技术类	
  –	
  搜索与算法职位	
  
	
  
描述:	
  
在最具挑战的无线客户端中,从事大数据分析和机器学习、个性化推荐系统算法
的研发。包括深度理解用户的Query语义、分析挖掘无线用户时空特征和兴趣偏好、
融合PC和无线端数据预测用户行为等。
	
  
要求	
  
1、扎实的编程功底,对C/C++/Java/Python等主流语言至少精通一门,熟悉2门;
2、在推荐系统、自然语言处理、搜索相关性、排序模型中的一方面有较深入的动手实
践经验
3.	
  有责任心、对技术有热情、团队合作精神佳	
  
	
  
	
  
简历发送到yanqiang.yq@taobao.com
Thanks  
竞赛经验分享:  个性化推荐,搜索广告,RTB  
@严强Justin  

More Related Content

Viewers also liked

Exploring Optimization in Vowpal Wabbit
Exploring Optimization in Vowpal WabbitExploring Optimization in Vowpal Wabbit
Exploring Optimization in Vowpal WabbitShiladitya Sen
 
Linear regression on 1 terabytes of data? Some crazy observations and actions
Linear regression on 1 terabytes of data? Some crazy observations and actionsLinear regression on 1 terabytes of data? Some crazy observations and actions
Linear regression on 1 terabytes of data? Some crazy observations and actionsHesen Peng
 
Cross Device Ad Targeting at Scale
Cross Device Ad Targeting at ScaleCross Device Ad Targeting at Scale
Cross Device Ad Targeting at ScaleTrieu Nguyen
 
Training Large-scale Ad Ranking Models in Spark
Training Large-scale Ad Ranking Models in SparkTraining Large-scale Ad Ranking Models in Spark
Training Large-scale Ad Ranking Models in SparkPatrick Pletscher
 
Factorization Machines with libFM
Factorization Machines with libFMFactorization Machines with libFM
Factorization Machines with libFMLiangjie Hong
 
Outbrain Click Prediction
Outbrain Click PredictionOutbrain Click Prediction
Outbrain Click PredictionAlexey Grigorev
 
用户研究中的数据分析
用户研究中的数据分析用户研究中的数据分析
用户研究中的数据分析Yong Zhang
 
在线卡片分类测试和数据分析工具分享
在线卡片分类测试和数据分析工具分享在线卡片分类测试和数据分析工具分享
在线卡片分类测试和数据分析工具分享Yong Zhang
 
Oracle面市笔记
Oracle面市笔记Oracle面市笔记
Oracle面市笔记yiditushe
 
Twitter 数据分析
Twitter 数据分析Twitter 数据分析
Twitter 数据分析wei teng
 
Some experiences and lessons learnt from hunting a job
Some experiences and lessons learnt from hunting a jobSome experiences and lessons learnt from hunting a job
Some experiences and lessons learnt from hunting a jobLihang Li
 
可视化与可视分析从数据拥有者到数据用户的桥梁
可视化与可视分析从数据拥有者到数据用户的桥梁可视化与可视分析从数据拥有者到数据用户的桥梁
可视化与可视分析从数据拥有者到数据用户的桥梁gettyying
 
MySQL_EXPLAIN_liling
MySQL_EXPLAIN_lilingMySQL_EXPLAIN_liling
MySQL_EXPLAIN_lilingTracyLLing
 

Viewers also liked (18)

大学与工作
大学与工作大学与工作
大学与工作
 
CTR logistic regression
CTR logistic regressionCTR logistic regression
CTR logistic regression
 
Exploring Optimization in Vowpal Wabbit
Exploring Optimization in Vowpal WabbitExploring Optimization in Vowpal Wabbit
Exploring Optimization in Vowpal Wabbit
 
Linear regression on 1 terabytes of data? Some crazy observations and actions
Linear regression on 1 terabytes of data? Some crazy observations and actionsLinear regression on 1 terabytes of data? Some crazy observations and actions
Linear regression on 1 terabytes of data? Some crazy observations and actions
 
Dynamic pricing
Dynamic pricingDynamic pricing
Dynamic pricing
 
Cross Device Ad Targeting at Scale
Cross Device Ad Targeting at ScaleCross Device Ad Targeting at Scale
Cross Device Ad Targeting at Scale
 
Training Large-scale Ad Ranking Models in Spark
Training Large-scale Ad Ranking Models in SparkTraining Large-scale Ad Ranking Models in Spark
Training Large-scale Ad Ranking Models in Spark
 
Factorization Machines with libFM
Factorization Machines with libFMFactorization Machines with libFM
Factorization Machines with libFM
 
Ranking scales
Ranking scalesRanking scales
Ranking scales
 
Outbrain Click Prediction
Outbrain Click PredictionOutbrain Click Prediction
Outbrain Click Prediction
 
用户研究中的数据分析
用户研究中的数据分析用户研究中的数据分析
用户研究中的数据分析
 
在线卡片分类测试和数据分析工具分享
在线卡片分类测试和数据分析工具分享在线卡片分类测试和数据分析工具分享
在线卡片分类测试和数据分析工具分享
 
Oracle面市笔记
Oracle面市笔记Oracle面市笔记
Oracle面市笔记
 
Twitter 数据分析
Twitter 数据分析Twitter 数据分析
Twitter 数据分析
 
Some experiences and lessons learnt from hunting a job
Some experiences and lessons learnt from hunting a jobSome experiences and lessons learnt from hunting a job
Some experiences and lessons learnt from hunting a job
 
可视化与可视分析从数据拥有者到数据用户的桥梁
可视化与可视分析从数据拥有者到数据用户的桥梁可视化与可视分析从数据拥有者到数据用户的桥梁
可视化与可视分析从数据拥有者到数据用户的桥梁
 
不生病的理由
不生病的理由不生病的理由
不生病的理由
 
MySQL_EXPLAIN_liling
MySQL_EXPLAIN_lilingMySQL_EXPLAIN_liling
MySQL_EXPLAIN_liling
 

Similar to 数据挖掘竞赛经验分享 严强

Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Masakazu Sano
 
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】Tomoharu ASAMI
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classificationKazuki Fujikawa
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証Recruit Technologies
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Recruit Technologies
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews, Inc.
 
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説Daiyu Hatakeyama
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類Shuzo Kashihara
 
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)Keiku322
 
Wandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfYuya Yamamoto
 
Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月Daiyu Hatakeyama
 
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜griddb
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分けるKazuaki Tanida
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
DLLab 2018 - Azure Machine Learning update
DLLab 2018 - Azure Machine Learning updateDLLab 2018 - Azure Machine Learning update
DLLab 2018 - Azure Machine Learning updateDaiyu Hatakeyama
 

Similar to 数据挖掘竞赛经验分享 严强 (20)

Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
 
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
M5 sinchir0
M5 sinchir0M5 sinchir0
M5 sinchir0
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015
 
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類
 
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
 
Wandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdf
 
Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月
 
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
Prometheus on AWS
Prometheus on AWSPrometheus on AWS
Prometheus on AWS
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分ける
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
DLLab 2018 - Azure Machine Learning update
DLLab 2018 - Azure Machine Learning updateDLLab 2018 - Azure Machine Learning update
DLLab 2018 - Azure Machine Learning update
 

Recently uploaded

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (9)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

数据挖掘竞赛经验分享 严强

  • 1. 竞赛经验分享    个性化推荐,搜索广告,RTB      @严强Justin   scmyyan@gmail.com  
  • 2. 报告内容   •  介绍   •  方法   –  Recommendation   –  Churn  Prediction   –  Search  Ads  CTR  Prediction   –  RTB   •  经验   –  Feature   –  Model   –  Ensemble   •  总结  
  • 3. 比赛   时间   比赛   成绩   排名   2013.12    ICDM  2013  Personalize  Expedia  Hotel   Searches  Contest   NDCG@38:  0.53102   第五    2013.05   品友RTB算法大赛  Season  1   (DSP  –  CTR  Prediction  +  Bidding +Pacing)   Score:1960   第一   2013.04.14   Data  Science  London  Big  Data   Hackathon   (Find  Influencers  in  SNS)   AUC:        0.8782   第二   2013.03  --  2013.05   百度电影推荐算法大赛   (Movie  Rec  –  Rating  Prediction)   RMSE:0.5920   第二     2012.11  --  2012.12   WSDM    Challenge  2013   (SE  User  Churn  Prediction)   AUC:  0.8433   第三   2012.03  --  2012.05   KDD  CUP  2012   (Search  Ads  CTR  Prediction)   AUC:  0.8030   第三   2011.03  –  2011.06   KDD  CUP  2011   (Music  Rec  –  Rating  Prediction)   RMSE:    19.90   第五  
  • 4. 方法   •  Recommenda)on  –  百度电影推荐比赛   Pre-­‐ process User,  Movie,  Tag User   Topic Movie   Topic Session Time  Bin Implicit  Feedback Features FM FM-­‐GI Models CV-­‐based   Ensemble   (LR+GBDT+NN) Test   Ensemble   (Ridge  Regression) Ensemble Post-­‐ process LDA Mul>-­‐class   LR Ridge Meta  Features Item-­‐CF PMF
  • 5. 方法   •  Predic)on  –  Churn  Predic)on
  • 6. 方法   •  Predic)on  –  Search  Ads  CTR  Predic)on   Pre-­‐ process User  Feature Features FM Models Rank-­‐based   Ensemble   Post-­‐ processSVM-­‐perf BPR Meta  Features LR Query  Feature Ad  Feature Combina)on   Feature
  • 7. RTB •  DSP算法   – CTR  Predic)on   – Bidding   – Pacing
  • 8. Pre-­‐ process User  Feature Features Models Rank-­‐based   Ensemble   Post-­‐ process BPRAd  Slot  Features LR Site  Feature Ad  Feature AdExchange   Feature Bidding   Pacing   Online  Stage 方法   •  RTB
  • 9. RTB   •  CTR  –  Prediction   –  Model   •  LR-l1  (Sparse)   •  AdPredictor  (Online  Learning)   –  Feature   •  用户:  区域、城市、User  Agent、(User  Tags)   •  广告:  广告主ID、创意ID   •  广告位:  type、size、可见性、形式   •  Site:  域名   •  Ad  Exchange:  Adx/Tanx/Tencent   •  经验   –  CTR预估不是关键   –  优化Conversion  Rate很难  
  • 10. RTB   •  Bidding                基于价值的出价(与M6D的算法类似)                                                              展现的价值  =    点击概率*点击价值      出价模型:   λ ) ),,|( (*Pr BaseCTR aiucP iceBasebid = λ参数调节CTR对出价的影响程度。     BasePrice和BaseCTR,λ三个参数,通过实验决定。调整原则 是使得预算刚好在时间结束时用完。    
  • 11. RTB   •  Pacing   – 预估流量   – 预算控制(预算、BaseCTR、BasePrice)   •  分AdExchange   •  分Campaign  
  • 12. Framework Pre_   Processing Feature   Engineering ModelData Ensemble Post_   Processing Model Ensemble Feature
  • 14. Feature   •  特征分类   – Low-level  vs.  High-level   – 简单特征  vs.  组合特征   以CTR预估为例:   1,Query:长度、历史CTR;   2,User:年龄、性别、历史CTR;   3,Ad(AderBidWordTitleDesc 等):各种长度、各种历史CTR;     4,Query与Ad的组合:   5,Ad与User的组合;   6,Query与User的组合:     7,Query、Ad、User的组合。    
  • 15. Feature   •  特征设计   – 刻画能力   – 覆盖度   刻画能力   •  完美的特征   •  ID   •  ID  combination   •弱特征   •  Float类型特征            (各种相似度)   •  一些低维度特征   1  2   3   4   低   弱   覆盖度  
  • 16. Model
  • 17. Model   •  模型选择   –  问题类型   •  推荐问题(MF,  FM)   •  排序问题(BPR,  Pair-wise,  Rank  LR)   •  分类/回归   –  数据规模(样本、特征):   •  KDD  CUP(十亿维特征,百万级样本)   –  Online  Learning   –  L1  >  L2   •  WSDM(百万维特征,百万级样本)   –  Rank  SVM   –  L2  >  L1   –  评价指标   •  NDCG,AUC  (Ranking,  Classification)   •  RMSE  (Regression)  
  • 18. FM:  Factorization  Machine   •  Model:       •  场景:  推荐、回归、分类   •  优化:   – SGD、ALS、MCMC   •  优点   – Generalized  Model  Framework   – Automatic  Feature  Combination  
  • 19. FMGI:  FM  with  Group-­‐wise  Interac)on •  FM存在的问题   –  复杂度   –  精度   •  模型     •  优化   – SGD   – MCMC   用户 特征   物品 特征   社交 特征   用户 属性   物品 属性  
  • 20. AdPredictor:   Online  Bayesian  Probit  Regression Ad    ID Posi)on 100 201 302 503 1 2 3 + ),0( 2 βN Observe  Noise
  • 21. AdPredictor:   Online  Bayesian  Probit  Regression •  应用场景:  CTR/Churn  Prediction  (Search  Ads,  RTB)   •  优点   –  Bayesian  Model  (Easy  to  add  domain  knowledge)   –  Easy  to  parallelize   –  Fast:  Online  Learning     –  Less  Parameters  to  tune   –  Model  Uncertainty  Explicitly     –  Natural  Exploration   •  Provide  a  way  to  add  randomness  elegantly     •  缺点   –  L2-Norm,  Not  Sparse  (vs.  LR-L1)     •  Pruning     –  Poor  performance  when  unbalanced/Rare  data  without   sampling  
  • 22. Model  vs.  Feature   评价指标   模型   SVM RF NN LR LinearSVM NN LR Linear RF Fea_Set_1 Fea_Set_2 *  Feature决定  UpperBound   *  Model决定接近UpperBound的程度   *  不同问题下Model的表现是不一样的  
  • 24. Ensemble •  方法:   –  Validation  Based   –  CV  Based   …… Ra>ng Meta   Features ItemCF MF FM
  • 26. Ensemble •  方法   – Search  Based   •  参数搜索   – Learning  Based   •  线性融合   –  感知机、LR   •  非线性融合   –  NN,  GBDT   •  基于pair-wise   – Multi-Stage  Ensemble  
  • 27. Ensemble •  示例   – 百度电影推荐比赛   Feature  Pool   Model   Model   Model  ....   Ensemble   Ensemble   Final  Result  
  • 28. 总结   竞赛   工业界   数据   固定,类干净的   流动,非常脏   关注点   特征、模型   数据   模型的重要程度   100%   <<100%   数据集大小   小   大   实时性要求   (特征、模型)   基本无   强   评测指标   通常1个,且可以直 接优化   通常多个,且不可直 接优化   •  竞赛  vs.  工业界
  • 29. 总结   •  竞赛的意义   – 码农的运动会   – 接触工业界问题,可以拿到实际数据   – focus在模型、特征   – 利于算法的创新、推广,技术的交流  
  • 30. Acknowledgement •  MLRush  Team@CAS   •  RP  Team@baidu   •  Liang  Xiang@hulu   •  Danny  Bickson@CMU   •  Quan  Yuan@taobao  
  • 31. 第三期个性化推荐技术周末实战班 •  2014年3月30日开课   –  上午9点—12点   –  下午1点-­‐-­‐5点半   •  内容:   –  推荐系统基础   –  基于投票的推荐算法   –  基于内容的推荐算法   –  基于近邻模型的推荐算法设计   –  基于矩阵分解及隐因子族模型的推荐算法   –  企业级推荐系统设计和实践
  • 32. CFP:  ACM  RecSys  2014  workshop  on  Large  Scale   Recommenda)on  Systems  (LSRS  2014) •  Tao  Ye,    tye@pandora.com,  Pandora  Inc.   •  Danny  Bickson,  bickson@graphlab.com,  GraphLab  Inc.   •  Qiang  Yan,  yanqiang.yq@taobao.com,  Taobao  Inc.  
  • 33. We  are  hiring! 一淘及搜索事业部   技术类  –  搜索与算法职位     描述:   在最具挑战的无线客户端中,从事大数据分析和机器学习、个性化推荐系统算法 的研发。包括深度理解用户的Query语义、分析挖掘无线用户时空特征和兴趣偏好、 融合PC和无线端数据预测用户行为等。   要求   1、扎实的编程功底,对C/C++/Java/Python等主流语言至少精通一门,熟悉2门; 2、在推荐系统、自然语言处理、搜索相关性、排序模型中的一方面有较深入的动手实 践经验 3.  有责任心、对技术有热情、团队合作精神佳       简历发送到yanqiang.yq@taobao.com