腾讯广点通

大数据之上的实时精准推荐
腾讯
数据平台部
精准推荐中心
薛伟
2013.12
目录
•
•
•
•

简介
数据
算法
系统
目录
•
•
•
•

简介
数据
算法
系统
广点通简介(e.qq.com)
• 广点通是基于腾讯大社交平
台的效果广告营销产品,在
腾讯大社交平台的海量用户
积累的基础上,运用大数据
技术,进行以人为核心的数
据挖掘,实现精准的广告推
荐。
• 腾讯精准推荐平台是广点通
背后的支撑系统之...
目录
•
•
•
•

简介
数据
算法
系统
数据的基本特点
• 典型的大数据
– 大量(Volume): 腾讯QQ月活跃用户超过8亿,在线人际关系链超
1000亿;Qzone空间月活跃用户数超6亿
– 高速(Velocity): Qzone空间日均相册上传超过4亿,日写操作总数
过10亿...
从推荐的视角看数据
交叉效应: 用户-物品, 用户-推荐位, 物品-推荐位,
用户-物品-推荐位的相似度

物品
自身属性:
素材特征、文本Tag
类别、价格、成交量
定向规则 、投放预算
生命周期等
派生属性:
归属的行业分类等

用户

推...
用户数据

用户画像
基础属性

兴趣爱好

用户TAG

用户状态

年龄

游戏

iPhone

新婚

性别

APP

Nike

育儿

地域

电商

DNF

学历

汽车

BMW

付费人群
…

职业

600余类目
…
...
用户数据

QQID用户画像

移动设备用户画像

离线

实时

离线

实时

用户Tag
用户长期兴趣
用户基础属性
…

用户实时Tag
用户实时兴趣
…

LBS定位数据
移动app行为
用户长期兴趣
…

LBS实时定位数据
移动a...
物品(广告)数据
• 广告主提供的特征:
– 类目,文字描述,价格,
定向规则等

• 爬取和计算的特征
– 广告素材图片基本特征
(亮度,饱和度,色彩度,
对比度,尖锐度等)
– 图像相似度
– 订单类目预测
– DNN发现深度特征

• 广...
上下文数据
•
•
•
•
•

推荐位置变量:PC页面、PC客户端、无线侧
环境变量:雾霾、下雨、紫外线
时间变量:早中晚、周末、假日
空间变量:LBS数据
其他变量:实时行为、状态 …
目录
•
•
•
•

简介
数据
算法
系统
算法-概述
• 推荐本质上是一种个性化排序
Ranking= scoring+sorting+filtering
• 特定场景如广点通,排序准确+预测值精准
AD Ranking = scoring+PCTR+filtering
ECPM=CT...
算法-谱系
• 用户实时行为

规则算法

– 关联,重定向

(重定向, 关联规则,热度,…)

• 老用户-老广告
– 经典模型效果好

基于内容的算法
协同过滤算法

(基于邻域,各种矩阵分解,…)

图算法

(最近邻,各类图挖掘,…)...
大数据对算法的挑战
• 挑战-精准投放
–
–
–
–
–
–

1‰
用户-广告的评价/行为矩阵过于稀疏,密度千分位,甚至更低
1-3
用户看到广告的曝光机会仅有1-3次/天
3-9
大部分广告的生命周期仅有3-9天左右
50
单次推荐请求控...
算法示例 – Logistic Regression
• 算法模型

 P 
logit P= ln 
  [, ]
 1 P 

logit P  f ( x1 , x2 , xk )

logit P=b0 ...
算法示例 – Logistic Regression
• 特征构成
用户

+

用户基本属性,行为属性、
兴趣标签..

广告
Tag、图像特征、
类目、行业..

+

推荐位
位置特征信息...

• 模型训练
– Spark上的分布式幵...
目录
•
•
•
•

简介
数据
算法
系统
大数据对系统的挑战
•
•
•
•
•
•
•
•
•

高效率
高吞吐率
低延迟
弹性
灵活性
容错/容灾
朋务质量保证
低运维成本
……
系统-腾讯分布式数据仓库(TDW)
IDE
集成开发

任务统一调度

查询引擎

TDBANK

数
据
采
集

计算引擎

Lhotse

Hive&Pig

MapReduce
HADOOP

存储引擎

HDFS

基于开源hado...
系统-腾讯实时计算平台(TRC)
•

TDBank
广告投放系统

– 日接入消息1000+亿
– 平均采集延迟1-2秒

•

TDProcess
– 日计算量10000+亿
– 秒级延迟

•

TDE
– 日读写4000+亿
– 存储量...
实时系统助力精准推荐
• 原始数据实时化
– 用户画像数据实时接入和计算
– 广告信息的实时接入和计算
– 上下文信息的实时采集和计算

• 训练数据流式生成
– 点击/曝光数据实时接入,流式关联特征数据,生成训练数据

• 流式模型更新
– ...
Q&A
薛伟:腾讯广点通——大数据之上的实时精准推荐
Upcoming SlideShare
Loading in...5
×

薛伟:腾讯广点通——大数据之上的实时精准推荐

716

Published on

BDTC 2013 Beijing China

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
716
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
19
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

薛伟:腾讯广点通——大数据之上的实时精准推荐

  1. 1. 腾讯广点通 大数据之上的实时精准推荐 腾讯 数据平台部 精准推荐中心 薛伟 2013.12
  2. 2. 目录 • • • • 简介 数据 算法 系统
  3. 3. 目录 • • • • 简介 数据 算法 系统
  4. 4. 广点通简介(e.qq.com) • 广点通是基于腾讯大社交平 台的效果广告营销产品,在 腾讯大社交平台的海量用户 积累的基础上,运用大数据 技术,进行以人为核心的数 据挖掘,实现精准的广告推 荐。 • 腾讯精准推荐平台是广点通 背后的支撑系统之一 – 数据海量 – 系统实时 – 算法精准
  5. 5. 目录 • • • • 简介 数据 算法 系统
  6. 6. 数据的基本特点 • 典型的大数据 – 大量(Volume): 腾讯QQ月活跃用户超过8亿,在线人际关系链超 1000亿;Qzone空间月活跃用户数超6亿 – 高速(Velocity): Qzone空间日均相册上传超过4亿,日写操作总数 过10亿 – 多样(Varity): 数据种类多(日志、视频、图片、LBS信息等),非 标准化数据比例高 – 价值(Value):价值密度低,商业价值高
  7. 7. 从推荐的视角看数据 交叉效应: 用户-物品, 用户-推荐位, 物品-推荐位, 用户-物品-推荐位的相似度 物品 自身属性: 素材特征、文本Tag 类别、价格、成交量 定向规则 、投放预算 生命周期等 派生属性: 归属的行业分类等 用户 推荐引擎 基础数据:年龄、地域、性别 内容: UGC内容:博客、微博内容等 行为:浏览 /收藏/ 喜欢/ 消费/分享等 场景:时间、地点 关系链:好友/朊友/微博关系链 推荐上下文 推荐上下文 属性: 推荐位:首页,IM,详情页… 对应页面内容,页面位置排序… 时间、地点、环境变量等…
  8. 8. 用户数据 用户画像 基础属性 兴趣爱好 用户TAG 用户状态 年龄 游戏 iPhone 新婚 性别 APP Nike 育儿 地域 电商 DNF 学历 汽车 BMW 付费人群 … 职业 600余类目 … 百万TAG … … • 基于社会关系的基础属性校准;基于tag统一化和语义分类的兴趣计 算;定向人群挖掘体系;…
  9. 9. 用户数据 QQID用户画像 移动设备用户画像 离线 实时 离线 实时 用户Tag 用户长期兴趣 用户基础属性 … 用户实时Tag 用户实时兴趣 … LBS定位数据 移动app行为 用户长期兴趣 … LBS实时定位数据 移动app实时行为 用户实时兴趣 … 用户画像的移动化和实时化
  10. 10. 物品(广告)数据 • 广告主提供的特征: – 类目,文字描述,价格, 定向规则等 • 爬取和计算的特征 – 广告素材图片基本特征 (亮度,饱和度,色彩度, 对比度,尖锐度等) – 图像相似度 – 订单类目预测 – DNN发现深度特征 • 广告特征的实时化 亮度标准差=3 亮度标准差=8 亮度标准差=16 对于同一人群,相似图片CTR接近
  11. 11. 上下文数据 • • • • • 推荐位置变量:PC页面、PC客户端、无线侧 环境变量:雾霾、下雨、紫外线 时间变量:早中晚、周末、假日 空间变量:LBS数据 其他变量:实时行为、状态 …
  12. 12. 目录 • • • • 简介 数据 算法 系统
  13. 13. 算法-概述 • 推荐本质上是一种个性化排序 Ranking= scoring+sorting+filtering • 特定场景如广点通,排序准确+预测值精准 AD Ranking = scoring+PCTR+filtering ECPM=CTR*CPC • 指导思想:针对丌同的推荐场景,采用丌同的数据和丌同 的算法策略
  14. 14. 算法-谱系 • 用户实时行为 规则算法 – 关联,重定向 (重定向, 关联规则,热度,…) • 老用户-老广告 – 经典模型效果好 基于内容的算法 协同过滤算法 (基于邻域,各种矩阵分解,…) 图算法 (最近邻,各类图挖掘,…) 分类算法 (LR,RDT,GBDT,NN,…) • 老用户-新广告 混合算法 – 借助广告相关的标签,文 本,类目,以及提取的广 告特征等 • 新用户-老广告 – 借助用户分群,转移学习 等 • 新用户-新广告 – 寻找相关信息量
  15. 15. 大数据对算法的挑战 • 挑战-精准投放 – – – – – – 1‰ 用户-广告的评价/行为矩阵过于稀疏,密度千分位,甚至更低 1-3 用户看到广告的曝光机会仅有1-3次/天 3-9 大部分广告的生命周期仅有3-9天左右 50 单次推荐请求控制时间50ms以内 10,000 + 通常单个推荐位可投广告在10万级别以上 10 bn+ 日均推荐请求量可达100亿次+ • 应对 – 高性能的学习算法:分布式幵行的LR,邻域CF,MF等算法 – 场景定制化的用户画像和广告特征提取
  16. 16. 算法示例 – Logistic Regression • 算法模型  P  logit P= ln    [, ]  1 P  logit P  f ( x1 , x2 , xk ) logit P=b0  b1 x1  b2 x2    bk xk
  17. 17. 算法示例 – Logistic Regression • 特征构成 用户 + 用户基本属性,行为属性、 兴趣标签.. 广告 Tag、图像特征、 类目、行业.. + 推荐位 位置特征信息... • 模型训练 – Spark上的分布式幵行的高维LR算法 – 支持高维特征+大训练数据集 – 15分钟增量更新线上模型 + 其他 = 是否点击 上下文 LBS,时间, 节假日,天气... 1,0
  18. 18. 目录 • • • • 简介 数据 算法 系统
  19. 19. 大数据对系统的挑战 • • • • • • • • • 高效率 高吞吐率 低延迟 弹性 灵活性 容错/容灾 朋务质量保证 低运维成本 ……
  20. 20. 系统-腾讯分布式数据仓库(TDW) IDE 集成开发 任务统一调度 查询引擎 TDBANK 数 据 采 集 计算引擎 Lhotse Hive&Pig MapReduce HADOOP 存储引擎 HDFS 基于开源hadoop,hive等进行了大量优化和改造 单集群4400台,存储容量100PB 下一代TDW集成YARN,支持多种幵行计算框架(MapReduce, Spark等),同时提供更高效的存储结构
  21. 21. 系统-腾讯实时计算平台(TRC) • TDBank 广告投放系统 – 日接入消息1000+亿 – 平均采集延迟1-2秒 • TDProcess – 日计算量10000+亿 – 秒级延迟 • TDE – 日读写4000+亿 – 存储量3T – 毫秒级延迟 • 实时推荐引擎 – – – – 日请求100+亿 日推荐10000+亿 推荐延迟50ms以内 模型推送延迟分钟级 TDBank 数据采集 TDProcess 流式计算 实时推荐 实时查询 引擎 TDEngine 分布式存储引擎 分布式计算平台 算法模型+用户画像
  22. 22. 实时系统助力精准推荐 • 原始数据实时化 – 用户画像数据实时接入和计算 – 广告信息的实时接入和计算 – 上下文信息的实时采集和计算 • 训练数据流式生成 – 点击/曝光数据实时接入,流式关联特征数据,生成训练数据 • 流式模型更新 – 直接用流式生成的训练数据来增量更新模型 • 实时推荐 – 实时访问实时更新的用户,广告,上下文数据 – 实时完成推荐的计算
  23. 23. Q&A
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×