More Related Content
Similar to Cdn调度策略优化 (20)
Cdn调度策略优化
- 1. 机房选择算法
司学峰
sxfmol@gmail.com 2010.12
- 2. 目标
• 大多数文件大小与下载时间范围?
• 样本选取及合适的下载速度区间?
• 主力及备用机房的判断标准?
• 地市到机房的选择规则?
• 新旧算法结果对比分析
- 5. 30万数据样本
文件大小区间(kByte)占比 记录数
700-800 41.06% 122969
1000-2000 16.07% 48117
5000-10000 14.32% 42888
大于10000 13.19% 39492
2000-5000 11.65% 34877
800-1000 2.71% 8128
小于700 0.99% 2979
- 6. 广州3天数据
广州全天数据记 文件小于10000kbyte且时
占总数比
录总数 间小于150s
22号 1655306 1343211 81.15%
23号 3685079 3036116 82.39%
24号 3357109 2710902 80.75%
- 9. 下载速度 占比(%) 记录数
100-250 52.01 155743
250-600 19.43 58195
60-100 11.94 35756
大于600 4.03 12087
小于60 12.57 37669
- 10. 全部数据
文件小于 文件小于
10000时间 10000时间
广州全天数据 占筛选后样
日期 记录总数
小于150范 占总数比 小于150速
围数据记录 度60-600数
本比
数 据记录数
22号 1655306 1343211 81.15% 1096079 81.60%
23号 3685079 3036116 82.39% 2416723 79.60%
24号 3357109 2710902 80.75% 2115789 78.05%
- 16. 关键少数—导致客户流失
文件小于 文件小于
占文件小
10000时 10000时
于10000
数据记录 间小于 占全部数 间小于
广州全天 时间小于
总数 150范围 据比率 150数据
150范围
数据记录 速度小于
数据
数 60记录数
22号 1655306 1343211 81.15% 197066 14.67%
23号 3685079 3036116 82.39% 504650 16.62%
24号 3357109 2710902 80.75% 481418 17.76%
- 17. 22号样本数据
速度小于 速度小于60 速度小于60 总记录占 小于60记录/总记录服务器性能较
总记录数
60servip 占比% 记录数 比% 数 差单位比
121.14.14.24 25.32 9790 8.81 26380 0.37 2.87
121.10.240.12 10.47 4048 8.99 26923 0.15 1.16
121.10.240.13 5.44 2105 5.00 14985 0.14 1.09
121.14.15.40 1.40 541 1.32 3940 0.14 1.06
121.14.15.24 1.22 472 1.18 3524 0.13 1.04
121.10.240.14 7.40 2861 8.05 24111 0.12 0.92
121.14.15.34 1.25 484 1.51 4508 0.11 0.83
121.15.253.72 5.89 2277 7.12 21324 0.11 0.83
121.15.253.68 5.62 2173 6.87 20567 0.11 0.82
121.14.14.40 5.81 2247 7.23 21639 0.10 0.80
121.14.14.48 5.82 2252 7.30 21862 0.10 0.80
121.14.14.36 4.31 1665 5.50 16478 0.10 0.78
121.14.15.48 0.82 316 1.09 3277 0.10 0.75
121.14.14.34 6.53 2524 9.04 27079 0.09 0.72
113.106.201.220 2.32 896 3.24 9688 0.09 0.72
121.15.253.90 4.92 1902 6.95 20797 0.09 0.71
121.14.15.37 0.22 86 0.32 966 0.09 0.69
121.14.14.37 0.99 381 1.69 5055 0.08 0.58
121.15.253.86 1.77 683 3.26 9767 0.07 0.54
121.14.15.36 0.40 156 0.81 2413 0.06 0.50
- 20. 结论:机房选择算法
符号定义:
设xij为某地区用户到i机房的第j条记录,f ij为该用户在i机房第j条记录下载文件大小,
tij为该用户i机房第j条记录下载文件的所用时间,
vij为该用户i机房第j条记录的下载速度 vij f ij tij ,
其中,文件大小fij的单位为Kbyte, 下载时间tij的单位为s。
样本筛选条件:
fij 10000且tij 150,i 1, 2, , m; j 1, 2, ,n
几个重要指标:
设ui整体为该地区用户到i机房的整体平均速度
ui整体 avg (vij )
设 i为该地区所有用户到i机房记录数占该地区全部记录数的比率
n m n
i xij x ij
j 1 i 1 j 1
- 21. 当60 vij 600
ui速度60600 avg (vij )
当vij <60, i为该地区用户到i机房速度小于60的记录数占该地区用户到i机房记录数的比率
k n
i xij x ij
j 1 j 1
ui主力机房排序速度 ui速度60600 *(1 i )
ui备用机房排序速度 ui速度60600 *(1 i )
是否主力机房判断条件:
如果该地区所有用户到i机房记录数占该地区全部记录数的比率 i 10%且 ui整体 100,
则i机房为该地区的主力机房;否则,为备用机房。
主力机房排序:
按ui主力机房排序速度降序排列,对应的机房编号cdnid即为主力机房优先选择的排序。
设主力机房的个数为q, 一般找到的主力机房个数q在3个左右。
备用机房排序:
按ui备用机房排序速度降序排列,取前(10 q )个。
这样,得到的10个机房由q个主力机房、(10-q )个备用机房组成。
- 23. 新旧算法比较
新算法 旧算法
样本选取条件 文件小于10000kb且下载时 按速度降序排列,选择10%-
长小于150s 30%区间数据
数据量 总体80%左右的数据量 总体20%的数据量
是否考虑差性能带 考虑 不考虑
来的影响
速度权重考虑因素 连接数、合理速度、差速度 速度
比率
结果是否区分主力 判断是否主力机房;先降序 不区分
机房 排列主力机房,再降序排列
非主力机房
- 26. 广州
• 新算法中,广州6天2个时间段12条记录中,机房排
名第1的均为广州,速度权重范围15-16;旧算法排
名第一的为东莞,速度权重范围173-192。
• 新算法中,广州6天2个时间段12条记录中,机房排
名第2的为广州或肇庆,速度权重范围8-15;旧算法
排名第2的都是长沙,速度权重范围79-82。
• 在新算法中前2位的机房判定为主力机房
• 新算法判定的主力机房在旧算法列出的机房中只有
广州机房在其列出的机房中出现过一次,占1/12%,
并且还排在后面。
• 结论:新算法判定的主力机房没有在旧算法中出现;
旧算法机房排序速度异常偏高。
- 27. 北京东城
• 旧算法中,北京东城东城给出的机房只有
北京和天津两个,速度权重范围17-21;
• 新算法中,北京东城给出的机房个数有5-9
个;前2位是北京和天津,并判断为主力机
房,速度权重范围10-16;
• 针对北京东城,新算法给出的机房个数优
于新算法。
- 28. 西安
• 新算法中,西安6天2个时间段12条记录中,
甘肃排在第一的有10条记录占10/12%,速度
权重范围17-19;找到的主力机房1-3个;
• 旧算法中,西安6天2个时间段12条记录中,
甘肃排在第一的有4个占4/12%,速度权重范
围34-40;其他第一非甘肃的速度权重范围:
33-141;
• 针对西安,新算法给出了1-3个主力机房;
旧算法整体速度权重较高,甚至异常超高。
- 29. 综合结论
• 1:新算法从数据样本选择上优于旧算法,样
本数据量由原来总体的20%提高到总体的80%,
在样本筛选上更具科学性。
• 2:新算法综合考虑了差性能占比对机房选择
的影响。旧算法速度权重仅以下载速度作为排
序标准,产生了很多异常高的速度权重,而基
于此选择的机房并不合理。新算法的速度权重
综合考虑了连接数、合理速度、差性能占比,
使机房选择排序标准更具合理性。
• 3:新算法给出了主力机房与非主力机房,新
算法排序结果更具可参考性。