Vipshop Offline Data Cache Acceleration System - Alluxio Integration

VIPSHOP Alluxio Cache System
唯品会缓存系统
聂凡博/Gus
2022.01

议程
Agenda
1
● 问题&挑战
● 解决方案
● 展望未来
● Q&A

离线数据的数据特征：
● 数据访问量大需求复杂
● 热点数据导致高频IO
● 冷热趋势明显
● 数据刷新不固定
唯品会离线数据平台架构

热数据场景分析
1
2
3
4
极热数据：有极热的维度表，也有数据产
品的热点数据
这样的数据访问每天能达到 Day>1K
窗口热数据：
● DataPipline 上刚刚生成最
新版本数据
● 数据是后继任务的热点依赖
数据访问次数的范围很广 Day > 50
冷数据：需要一直保留的
重要数据访问次数很低
，Day Avg = 0
历史的DataPipline数据：这样的数据往往
访问很少，但用户还希望保留作为备份或
者月度统计，Day > 10

数据步长
10
W1 W2 W3 W4
09
W1 W2 W3 W4
08
W1 W2 W3 W4
07
W1 W2 W3 W4
07 Data Date
08 Data Date
10 Data Date
09 Data Date
LOREM
Audit Date
-1
0 -2 -3
0
-1 -2
0 -1
0
数据步长=访问日期和数据日期的相对值

基于数据步长的数据冷热数据
HDFS Audit日志分析
收集所有集群的数据访问
日志。
分区级别数据访问
清洗日志数据到分区粒度
的真实数据访问。
表步长数据访问分析
聚合到步长级别，进而分
析表的不同步长，在长时
间访问波动情况。
表步长级别冷热分析
能够预估到每个表，那些
分区在什么时候是热的，
在什么时候会冷掉。
表细粒度数据冷热，生命周期画像

冷热数据的处理设计思路
Table A
HDFS
Distribute Cache
Distribute FS
(SSD)
HDFS EC
步长：0-1 步长：2-4 步长：5-6 步长: > 6
表级生命周期画像
数据管理

缓存系统设计
Table A
HDFS
步长：0-1 步长：2-4 步长：5-6 步长: > 6
Cache/SSD
MetaStore
Auto Load
OverWrite
Data
计算引擎

缓存系统设计
Data Consitence Pertection

缓存写入
Also write TimeStamp to
Metastore for Data
Consitence

缓存读取 Compare TimeStamp
from Metastore for Data
Consitence

元数据接入
元数据系统对接：
● 展示表缓存需求
● 展示缓存分区
● 申请接入缓存
● 申请审核

加速系统-展望：
● Alluxio 加载数据的性能
● 全面使用Alluxio 接入SSD温热数据数据
● Alluxio Federation分流
● 接入其他的加速引擎方案 : CK/Doris
● 直接对接数据服务路由层，导流所有客户端SQL

关于我们：
大数据组件研发： Hadoop, Alluxio, Spark, Flink, Presto, Hudi, CK, Doris…

Vipshop Offline Data Cache Acceleration System - Alluxio Integration

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to Vipshop Offline Data Cache Acceleration System - Alluxio Integration

Similar to Vipshop Offline Data Cache Acceleration System - Alluxio Integration (20)

More from Alluxio, Inc.

More from Alluxio, Inc. (20)

Vipshop Offline Data Cache Acceleration System - Alluxio Integration