More Related Content
Similar to 推荐系统:从入门到放弃 (20)
推荐系统:从入门到放弃
- 4. 收集数据
• ⽤户⾏为数据:应⽤埋点(⾃动 + ⼿动)
• 流式计算:Kafka、Pulsar、Flink 等
• 数据格式:Protocol Bu
ff
ers、Thrift 等
• 落地:对象存储、HDFS、JuiceFS 等
- 6. 模型训练
• 特征⼯程(Feature engineering)
• 稀疏特征(Sparse feature)
• 稠密特征(Dense feature)
• 数据集
• 训练集、验证集
• 标注:正样本、负样本
• 传统机器学习模型:协同过滤(Collaborative Filtering)、GBDT(Gradient-boosting Decision Tree)
• 深度学习模型:Wide & Deep(Google)、DLRM(Meta)
• 训练框架:TensorFlow、PyTorch、MXNet、PaddlePaddle 等
- 7. 模型训练 - Wide & Deep
Wide & Deep Learning for Recommender Systems, DLRS’16
- 9. 模型训练 - Parameter Server
• 参数服务器(Parameter Server)
• Scaling Distributed Machine Learning
with the Parameter Server
(BigDataScience’14)
- 11. 模型上线及服务
• 模型⼤⼩:⼩⾄ MB,⼤⾄ TB
• 推理(Inference)服务:TensorFlow Serving 等
• 推荐系统在线服务处理流程:
1. 召回(Recall/Retrieval)
2. 排序(Ranking)
1. 粗排
2. 精排
Deep Neural Networks for YouTube Recommendations, RecSys’16
- 12. 模型上线及服务 - 召回
• 倒排索引
• 正排索引
• 向量索引:ANN(Approximate Nearest Neighbor)
• 已读过滤:Bloom
fi
lter
- 13. 模型上线及服务 - 排序
• 最耗时的流程,计算密集型。
• 多种⽬标的模型共同影响排序结果
• DSSM:Learning Deep Structured Semantic Models for Web Search using
Clickthrough Data(微软)