SlideShare a Scribd company logo
Apache Pegasus 在神策⼴告云数据流中的应⽤
史佼明
2
0
2
2
-
1
1
⽬ 录
CONTENTS
神策⼴告业务
1
⼴告数据流架构介绍
2
引⼊ Pegasus
3
Pegasus 新挑战
4
我们做什么?提供什么价值?
解决⽅案是什么?解决的问题是什么?设计⽅案是什么?
设计过程中遇到的问题是什么?Pegasus 在架构中提供的能⼒是什么?
在秒级预警、实时分析、SaaS化后对 Pegasus 的挑战
神策⼴告业务
part
1
- 做什么?有什么价值?
作为效果⼴告三⽅监测归因⼯具,帮助客⼾打通公私域数据,进⾏全域深链路分析
⼀站式拉通媒体渠道数据,降低对接成本,提⾼效率
⼀键授权拉取公私域明细数据,省去繁琐的数据拼接与函数计算
⾃定义全局概览,核⼼指标T+
0
分时查看
神策⼴告数据流架构
part
2
- ⼴告数据流,为⼴告⽽⽣
神策⼴告在整个⼴告系统中的位置
⼀条数据的经历
看⼴告
点了
头条
⾏为采集系统
监测回传系统
⼴告
Nginx
请求 log
Edge
⽇志解析
Kafka
数据接收流组
件
数据初始化
加⼯处理
Pegasus
王者
激活
Nginx
数据订阅流组
件
曝点击⾏为
激活及后链路事件
SDK
归因 深度回传 ...
plugins
归因维度维护
HDFS
原始 log
数据流 ADS DIM
DW
event
user
激活
订阅
拉取
曝点击
头条后台系统
模型优化
神策数仓集群
神策⼴告集群
接收流 订阅流
SDK
发送点击事件
数据流及归因处理逻辑
⽆界实时数据
需要持续处理曝光、点击和激活⾏为数据
实时归因和深度回传,为客⼾投放优化提供数据⽀撑
跨多个组件(进程)
曝光、点击处理
激活及转化事件处理
深度回传
数据量⼤
曝光、点击
内存不能成为存储瓶颈
实时归因+回传
强⼀致性
对同⼀个 Key 的变更,要保证所有组件拿到的结果是⼀致的
强⼀致
⼤数据
实时
⽆界
曝光、点击、归因、回传
引⼊ Pegasus
part
3
解决了什么问题?
Pegasus
性能满⾜ 存储满⾜ 强⼀致性满⾜
稳定性满⾜
HBase
性能满⾜
存储满⾜
强⼀致性满⾜
神策环境下的稳定性不满⾜(⼤量操作ZK)
不可⽤和 region 恢复时⻓不满⾜业务需求
Redis
性能满⾜
存储不满⾜
强⼀致性不满⾜
稳定性基本满⾜,但在神策环境下不满⾜
外部存储选型
⼆级 sortedKey ttl 查询 hang 住
value 设计
模糊归因场景
归因部分使⽤ Pegasus,不使⽤ Redis,
Pegasus ⽀持⼆级 sortedKey ttl 的特性,这
个 Redis ⽀持不了
hashKey = ip
sortedKey = eventTime
value = channel info
根据 ip scan 对近期相同 ip 的点击进⾏相
似度计算
通过 protobuf 序列化
对枚举类型的字符串值,做形式化定
义,转成int
单个hashKey下的数据体积过⼤,导致查询
卡住
query time 做 limit(maxFetchCount)
每次写⼊后异步被动清理
* micro-batch
业务上的考量
亿级流量下 Pegasus 的表现
基础⼯具集
秒级监控:客⼾能够实时监控⼀些核⼼指标的波动情况,并通
过邮件、短信、公众号、机器⼈电话等⽅式推送给客⼾。(原
⼦操作)
数据⽣命周期可视化:⼀个⽤⼾从曝光-点击-激活-归因-回传等
整个流程可视化
...
插件化
数据流是管道是基础设施,在数据流之上除了归因、深度回传
之外还可以提供很多能⼒。插件化后,RD 同学可以按照插件协
议开发⾃⼰的 Application ,实现⾃⼰的业务功能。
SaaS
数据流 SaaS 化后,客⼾⽆需部署,简单配置后就可以快速采
集曝点击数据。⽽数据流 SaaS 只是第⼀步,未来 Marketing
API 和 SAT 都会 SaaS 化。
⼴告数据流下⼀步做什么
夯实
基础
扩展
友好
快速
交付
4
0
0
-
6
5
0
-
9
8
2
7
www.sensorsdata.cn
Thanks
关注公众号 联系我们

More Related Content

Similar to How does the Apache Pegasus used in Advertising Data Stream in SensorsData

Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境drewz lin
 
tasmc Mason Liu SAP Teched@Shanghai
tasmc Mason Liu SAP Teched@Shanghaitasmc Mason Liu SAP Teched@Shanghai
tasmc Mason Liu SAP Teched@Shanghai
tasmc
 
海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)
Zhaoyang Wang
 
Pegasus In Depth (2018/10)
Pegasus In Depth (2018/10)Pegasus In Depth (2018/10)
Pegasus In Depth (2018/10)
涛 吴
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011Yiwei Ma
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSW
Jianwei Li
 
Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享drewz lin
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010Jiang Zhu
 
Easy to recap AWS reinvent 2017
Easy to recap AWS reinvent 2017Easy to recap AWS reinvent 2017
Easy to recap AWS reinvent 2017
Win Yu
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)锐 张
 
2021 ee大会-旷视ai产品背后的研发效能工具建设
2021 ee大会-旷视ai产品背后的研发效能工具建设2021 ee大会-旷视ai产品背后的研发效能工具建设
2021 ee大会-旷视ai产品背后的研发效能工具建设
Tianwei Liu
 
Open stack中国社区开放测试平台(ostp)
Open stack中国社区开放测试平台(ostp)Open stack中国社区开放测试平台(ostp)
Open stack中国社区开放测试平台(ostp)
OpenCity Community
 
信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressAppzhoujg
 
IDC大会:新浪SAE架构与设计
IDC大会:新浪SAE架构与设计IDC大会:新浪SAE架构与设计
IDC大会:新浪SAE架构与设计Xi Zeng
 
《云计算入门指南》
《云计算入门指南》《云计算入门指南》
《云计算入门指南》
wiit
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
Herman Wu
 
Ria的强力后盾:rest+海量存储
Ria的强力后盾:rest+海量存储 Ria的强力后盾:rest+海量存储
Ria的强力后盾:rest+海量存储
zhen chen
 
为什么你需要了解应用云
为什么你需要了解应用云为什么你需要了解应用云
为什么你需要了解应用云easychen
 

Similar to How does the Apache Pegasus used in Advertising Data Stream in SensorsData (20)

Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
 
tasmc Mason Liu SAP Teched@Shanghai
tasmc Mason Liu SAP Teched@Shanghaitasmc Mason Liu SAP Teched@Shanghai
tasmc Mason Liu SAP Teched@Shanghai
 
海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)
 
Pegasus In Depth (2018/10)
Pegasus In Depth (2018/10)Pegasus In Depth (2018/10)
Pegasus In Depth (2018/10)
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSW
 
Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010
 
Easy to recap AWS reinvent 2017
Easy to recap AWS reinvent 2017Easy to recap AWS reinvent 2017
Easy to recap AWS reinvent 2017
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
 
2021 ee大会-旷视ai产品背后的研发效能工具建设
2021 ee大会-旷视ai产品背后的研发效能工具建设2021 ee大会-旷视ai产品背后的研发效能工具建设
2021 ee大会-旷视ai产品背后的研发效能工具建设
 
Open stack中国社区开放测试平台(ostp)
Open stack中国社区开放测试平台(ostp)Open stack中国社区开放测试平台(ostp)
Open stack中国社区开放测试平台(ostp)
 
信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp
 
IDC大会:新浪SAE架构与设计
IDC大会:新浪SAE架构与设计IDC大会:新浪SAE架构与设计
IDC大会:新浪SAE架构与设计
 
《云计算入门指南》
《云计算入门指南》《云计算入门指南》
《云计算入门指南》
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Ria的强力后盾:rest+海量存储
Ria的强力后盾:rest+海量存储 Ria的强力后盾:rest+海量存储
Ria的强力后盾:rest+海量存储
 
为什么你需要了解应用云
为什么你需要了解应用云为什么你需要了解应用云
为什么你需要了解应用云
 

More from acelyc1112009

Apache Pegasus (incubating): A distributed key-value storage system
Apache Pegasus (incubating): A distributed key-value storage systemApache Pegasus (incubating): A distributed key-value storage system
Apache Pegasus (incubating): A distributed key-value storage system
acelyc1112009
 
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
acelyc1112009
 
How does Apache Pegasus used in Xiaomi's Universal Recommendation Algorithm ...
How does Apache Pegasus used  in Xiaomi's Universal Recommendation Algorithm ...How does Apache Pegasus used  in Xiaomi's Universal Recommendation Algorithm ...
How does Apache Pegasus used in Xiaomi's Universal Recommendation Algorithm ...
acelyc1112009
 
The Introduction of Apache Pegasus 2.4.0
The Introduction of Apache Pegasus 2.4.0The Introduction of Apache Pegasus 2.4.0
The Introduction of Apache Pegasus 2.4.0
acelyc1112009
 
How does Apache Pegasus (incubating) community develop at SensorsData
How does Apache Pegasus (incubating) community develop at SensorsDataHow does Apache Pegasus (incubating) community develop at SensorsData
How does Apache Pegasus (incubating) community develop at SensorsData
acelyc1112009
 
The Design, Implementation and Open Source Way of Apache Pegasus
The Design, Implementation and Open Source Way of Apache PegasusThe Design, Implementation and Open Source Way of Apache Pegasus
The Design, Implementation and Open Source Way of Apache Pegasus
acelyc1112009
 
Apache Pegasus's Practice in Data Access Business of Xiaomi
Apache Pegasus's Practice in Data Access Business of XiaomiApache Pegasus's Practice in Data Access Business of Xiaomi
Apache Pegasus's Practice in Data Access Business of Xiaomi
acelyc1112009
 
The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...
The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...
The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...
acelyc1112009
 
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend partHow do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
acelyc1112009
 

More from acelyc1112009 (9)

Apache Pegasus (incubating): A distributed key-value storage system
Apache Pegasus (incubating): A distributed key-value storage systemApache Pegasus (incubating): A distributed key-value storage system
Apache Pegasus (incubating): A distributed key-value storage system
 
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
 
How does Apache Pegasus used in Xiaomi's Universal Recommendation Algorithm ...
How does Apache Pegasus used  in Xiaomi's Universal Recommendation Algorithm ...How does Apache Pegasus used  in Xiaomi's Universal Recommendation Algorithm ...
How does Apache Pegasus used in Xiaomi's Universal Recommendation Algorithm ...
 
The Introduction of Apache Pegasus 2.4.0
The Introduction of Apache Pegasus 2.4.0The Introduction of Apache Pegasus 2.4.0
The Introduction of Apache Pegasus 2.4.0
 
How does Apache Pegasus (incubating) community develop at SensorsData
How does Apache Pegasus (incubating) community develop at SensorsDataHow does Apache Pegasus (incubating) community develop at SensorsData
How does Apache Pegasus (incubating) community develop at SensorsData
 
The Design, Implementation and Open Source Way of Apache Pegasus
The Design, Implementation and Open Source Way of Apache PegasusThe Design, Implementation and Open Source Way of Apache Pegasus
The Design, Implementation and Open Source Way of Apache Pegasus
 
Apache Pegasus's Practice in Data Access Business of Xiaomi
Apache Pegasus's Practice in Data Access Business of XiaomiApache Pegasus's Practice in Data Access Business of Xiaomi
Apache Pegasus's Practice in Data Access Business of Xiaomi
 
The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...
The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...
The Advertising Algorithm Architecture in Xiaomi and How does Pegasus Practic...
 
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend partHow do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
 

How does the Apache Pegasus used in Advertising Data Stream in SensorsData