推荐系统：从入门到放弃

Changjian Gao
推荐系统：从⼊⻔到放弃

应⽤场景
• 信息流（Feed）

• 猜你喜欢

• 看了⼜看

• 买了⼜买

• ……

⼏个重要的阶段
1. 收集数据

2. 处理数据

3. 模型训练

4. 模型上线及服务

5. 评估效果

收集数据
• ⽤户⾏为数据：应⽤埋点（⾃动 + ⼿动）

• 流式计算：Kafka、Pulsar、Flink 等

• 数据格式：Protocol Bu
ff
ers、Thrift 等

• 落地：对象存储、HDFS、JuiceFS 等

处理数据
• 传统 ETL：进数仓

• 实时 OLAP：ClickHouse、Presto 等

• 格式转换：TFRecords

• ⽤户画像

• 推荐内容的画像

模型训练
• 特征⼯程（Feature engineering）

• 稀疏特征（Sparse feature）

• 稠密特征（Dense feature）

• 数据集

• 训练集、验证集

• 标注：正样本、负样本

• 传统机器学习模型：协同过滤（Collaborative Filtering）、GBDT（Gradient-boosting Decision Tree）

• 深度学习模型：Wide & Deep（Google）、DLRM（Meta）

• 训练框架：TensorFlow、PyTorch、MXNet、PaddlePaddle 等

模型训练 - Wide & Deep
Wide & Deep Learning for Recommender Systems, DLRS’16

模型训练 - Parameter Server
• 参数服务器（Parameter Server）

• Scaling Distributed Machine Learning
with the Parameter Server
(BigDataScience’14)

模型训练 - Parameter Server

模型上线及服务
• 模型⼤⼩：⼩⾄ MB，⼤⾄ TB

• 推理（Inference）服务：TensorFlow Serving 等

• 推荐系统在线服务处理流程：

1. 召回（Recall/Retrieval）

2. 排序（Ranking）

1. 粗排

2. 精排
Deep Neural Networks for YouTube Recommendations, RecSys’16

模型上线及服务 - 召回
• 倒排索引

• 正排索引

• 向量索引：ANN（Approximate Nearest Neighbor）

• 已读过滤：Bloom
fi
lter

模型上线及服务 - 排序
• 最耗时的流程，计算密集型。

• 多种⽬标的模型共同影响排序结果

• DSSM：Learning Deep Structured Semantic Models for Web Search using
Clickthrough Data（微软）

推荐系统：从入门到放弃

Recommended

Recommended

More Related Content

Similar to 推荐系统：从入门到放弃

Similar to 推荐系统：从入门到放弃 (20)

推荐系统：从入门到放弃