SlideShare a Scribd company logo
1 of 14
Changjian Gao
推荐系统:从⼊⻔到放弃
应⽤场景
• 信息流(Feed)

• 猜你喜欢

• 看了⼜看

• 买了⼜买

• ……
⼏个重要的阶段
1. 收集数据

2. 处理数据

3. 模型训练

4. 模型上线及服务

5. 评估效果
收集数据
• ⽤户⾏为数据:应⽤埋点(⾃动 + ⼿动)

• 流式计算:Kafka、Pulsar、Flink 等

• 数据格式:Protocol Bu
ff
ers、Thrift 等

• 落地:对象存储、HDFS、JuiceFS 等
处理数据
• 传统 ETL:进数仓

• 实时 OLAP:ClickHouse、Presto 等

• 格式转换:TFRecords

• ⽤户画像

• 推荐内容的画像
模型训练
• 特征⼯程(Feature engineering)

• 稀疏特征(Sparse feature)

• 稠密特征(Dense feature)

• 数据集

• 训练集、验证集

• 标注:正样本、负样本

• 传统机器学习模型:协同过滤(Collaborative Filtering)、GBDT(Gradient-boosting Decision Tree)

• 深度学习模型:Wide & Deep(Google)、DLRM(Meta)

• 训练框架:TensorFlow、PyTorch、MXNet、PaddlePaddle 等
模型训练 - Wide & Deep
Wide & Deep Learning for Recommender Systems, DLRS’16
模型训练 - Wide & Deep
模型训练 - Parameter Server
• 参数服务器(Parameter Server)

• Scaling Distributed Machine Learning
with the Parameter Server
(BigDataScience’14)
模型训练 - Parameter Server
模型上线及服务
• 模型⼤⼩:⼩⾄ MB,⼤⾄ TB

• 推理(Inference)服务:TensorFlow Serving 等

• 推荐系统在线服务处理流程:

1. 召回(Recall/Retrieval)

2. 排序(Ranking)

1. 粗排

2. 精排
Deep Neural Networks for YouTube Recommendations, RecSys’16
模型上线及服务 - 召回
• 倒排索引

• 正排索引

• 向量索引:ANN(Approximate Nearest Neighbor)

• 已读过滤:Bloom
fi
lter
模型上线及服务 - 排序
• 最耗时的流程,计算密集型。

• 多种⽬标的模型共同影响排序结果

• DSSM:Learning Deep Structured Semantic Models for Web Search using
Clickthrough Data(微软)
评估效果
• A/B 测试

More Related Content

Similar to 推荐系统:从入门到放弃

2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
Jazz Yao-Tsung Wang
 
淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化
丁 宇
 
大型互联网站性能优化
大型互联网站性能优化大型互联网站性能优化
大型互联网站性能优化
丁 宇
 
Exadata那点事
Exadata那点事Exadata那点事
Exadata那点事
freezr
 

Similar to 推荐系统:从入门到放弃 (20)

2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 
Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
 
Elastic stack day-1
Elastic stack day-1Elastic stack day-1
Elastic stack day-1
 
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
 
淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化
 
了解应用服务器
了解应用服务器了解应用服务器
了解应用服务器
 
Maximize Your Production Effort (Chinese)
Maximize Your Production Effort (Chinese)Maximize Your Production Effort (Chinese)
Maximize Your Production Effort (Chinese)
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
大型互联网站性能优化
大型互联网站性能优化大型互联网站性能优化
大型互联网站性能优化
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
一淘广告机器学习
一淘广告机器学习一淘广告机器学习
一淘广告机器学习
 
Exadata那点事
Exadata那点事Exadata那点事
Exadata那点事
 
From Java Stream to Java DataFrame
From Java Stream to Java DataFrameFrom Java Stream to Java DataFrame
From Java Stream to Java DataFrame
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
線上埋碼資料收集實作
線上埋碼資料收集實作線上埋碼資料收集實作
線上埋碼資料收集實作
 
寫出高性能的服務與應用 那些你沒想過的事
寫出高性能的服務與應用 那些你沒想過的事寫出高性能的服務與應用 那些你沒想過的事
寫出高性能的服務與應用 那些你沒想過的事
 

推荐系统:从入门到放弃