张晓：大数据存储与访问测试基准

大数据存储与访问测
试基准
西北工业大学张晓
zhangxiao@nwpu.edu.cn
2013-12-06

目录
•
•
•
•
•

存储和处理大数据面临的问题
海量存储系统评测体系
性能评测指标及方法
评测结果
文件系统性能优化

海量(大)数据的产生
社交网络分析系统

Google搜索

Google搜索，每天查询处理24PB数据

Facebook每小时创造130万消息

物联网数据处理系统

沃尔玛每小时处理100多万笔交易，数
据库大小超过2500万亿Byte(2PB)

全国5亿手机用户，
每日产生30TB话单数据

每分钟发送邮件数量达到2.9万封

淘宝、京东等购物网站
每小时处理百万笔交易

IDC统计，数据会以
每年60％的速度增长

海量且快速增长的数据对数据存储
和数据管理系统提出了更高的要求

海量(大)数据衍生大变革
智慧城市

大数据时代的到来给智慧城市的建设带来了新兴的增长
机会。

产业创新

从IT业，制造业，金融业，甚至是体育产业和旅游产业
中都能发现大数据所带来的变革。

科研创新

在天文观测、气象监测、生物基因、物理仿真等数据密
集型科学研究中都将遭遇大数据的挑战。

2012年奥巴马政府公布了2亿美元的“大数据研发计划”

美国
卫生保健

年增加产业价值

$300 B

制造业
减少开发和
组装成本

–50%

全球个人
位置数据

增加服务
提供者收益

$100 B

欧洲公共
部门管理

美国零售业

增加产业价值

增加净利润率

€250 B

60+%

海量(大)数据存储和管理
海量数据

数据

海量数据存储

=

海
量
数
据
管
理

数据存储中心建设成为全球建设热点
计算为核心è网络为核心è数据为核心
拥有数据 è 管理数据

海量数据存在哪里？
•
•
•
•

并行数据库
NoSQL数据管理系统
NewSQL数据管理系统
分布式文件系统
–
–
–
–

Lustre
HDFS
GFS
…

问题在哪里？
• 大数据在产生，保存，访问时都对存储系统有
较高的要求
– 高并发
– 高吞吐量—聚合访问带宽
– 高可扩展性

• PB级海量存储系统的研究成果
– 海量存储系统测试的层次和方法
– 海量存储系统测试体系，评测工具的开发
– 实际PB级系统测试结果

• 如何利用测试结果对存储系统进行优化。

海量存储系统层次与指标
• 评测体系
– 海量存储系统分为应用层性
能，存储系统软件，信息核心
组织系统，存储网络，存储设
备五个部分，共设计20项指标

• 评测规范

典型应用

核心系统及关键
存储软件

核心系统及关键
存储软件

核心系统

– 对20项指标分别设计评测方法
及与之对应的评测工具

• 评测工具

FC交换机

IB交换机

– 应用层性能: fsrecord, fsreplay
– 文件系统性能:
Lzpack,fspoly,iozone,SPECsfs2008

– 磁盘阵列: Iometer,SPC
– 交换设备: iperf,netperf,ib_bw

存储系统
软件

存储网络

存储设备
高端磁盘阵列

评测体系构成
评测
指标

建立反映海量存储系统特性的，全面的评测
指标。

评测
方法

根据指标的定义，确定采用何种方法对存储
系统进行测试。包括通用和特有的评测方
法。
采用国际通用或自行开发的工具进行评测。
开发各自的评测工具。

评测
工具

应用
场景

包括trace采集结果，IO负载模型，故障和
可管理事件模型。

性能评测体系

性能评测指标共分为5类，合计20项

性能评测工具集
测试内容

采集用户环境下的IO Trace

自主开发

Trace重放fsreplay

重放指定格式的IO Trace

自主开发

测试NFS,CIFS文件服务性能标准及工具

购买

文件系统接口测试
lzpack

测试文件系统接口元数据和数据吞吐量

自主开发

并发数及聚合带宽测试
工具fspoly

在多个节点上运行多个并行读写程序

自主开发

测试核心文件系统的元数据吞吐量

自主开发

测试IB适配器的带宽

开源工具

Iperf

网络性能测试工具

开源工具

netperf

网络性能测试工具

开源工具

IOMeter

测试磁盘阵列的IOPS和数据传输率

开源工具

SPC-1

测试磁盘阵列的IOPS和数据传输率

未购到

SPC-2

磁盘阵列性
能

Trace采集fsrecord

带宽测试软件
网络性能

来源

Multi PostMark

核心文件系
统性能

功能

SPEC_sfs2009

应用层性能

工具名称

测试磁盘阵列的大数据应用性能

未购到

性能测试工具集共包括12个软件，对现有工具无法测试指标，开发了5个测试工具。

Lzpack--访问接口性能
• 工具:lzpack
• 功能
– 可以评测兼容POSIX1.0的文件系
统。
– 可以评测12项数据读写的性能
– 可以评测10项元数据操作的性能

• 优点
– 测试结果准确
– 测试内容全面并具有较强的扩展
性
– 通过配置文件可选择测试任意一
个或多个接口性能
– 通过命令行参数可指定文件大
小，读写块大小等参数

工具使用环境
工具在评测集群
上使用，评测集
群中各个节点同
时挂载并行文件
系统。
测试由一个总控
节点控制，多个
负载生成节点同
时对并行文件系
统产生负载，进
行评测。

工具正确性验证
•

Bonnie++的对比测
试
–
–

–
–

•

设置文件大小
4G，
8G,16G,32G
采用文件系统
默认的文件块
大小及一个节
点
测试write，
read，putc，
getc的速率
使用与bonie++
相同的读写块
大小8KB，顺序
读写

较小文件测试
时，两工具结果
基本相当，lzpack
略优，当文件较
大时，Bonnie++的
测试性能开始下
降，

测试结果

Bonnie++

4G文件大小

16G文件大小

LzPack

8G文件大小

32G文件大小

Fspoly-聚合带宽和并发数测试
•

工具:FsPoly

•

功能：在用户环境下测试核心文
件系统的聚合带宽和并发数
结构：由Windows上的总控节点
(GUI)和Linux上的负载生成节点
构成。

•

•

优点:
– 测试结果准确(Iometer）
– 支持多种文件系统
– 支持IA32,IA64，EMT64等多
种架构
– 可定制不同访问模式和策略，
并指定给不同的节点。

controlor

testor

testor

testor

FC/ IB

testor

正确性证明测试环境
—

使用测试节点相关配置:
ü
ü
ü
ü
ü
ü
ü

机型:HP Compaq dx2355 商务机型
OS:Red Hat EnterPrise Linux 5.3
内核:2.6.18-128.el5xen
内存:DDR2，2.5GB，800MHZ
硬盘:Western Digital产品; SATA接口; 7200rpm;8MB缓
存;250GB容量硬盘一块;
CPU:型号:AMD Athlon(tm) Dual Core Processor 5000B; 2.6GHZ
主频; Cahe:512KB;200MHZ外频.
FS:EXT3;块大小 4KB.

在测试节点上开创一个20GB大小的分区,使用iometer
对此分区进行测试。
— 使用EXT3文件系统对上一步的20GB的分区进行格式
化；再使用FSPoly通过创建一个20GB大小的文件，
进行测试。
— 将iometer与FSPoly的结果进行对比,分析, 验证FSPoly
的正确性.

总控端Controlor

—

HP Compaq dx2355

FSPoly与iometer测试结果对比
测试结果:
随机读

随机写

8

14
传输率(MB/s)

传输率(MB/s)

12
6
4
2

10
8
6
4
2

0

0
4

8

16

32

64

4

8

16

传输数据块大小(KB)

64

32

64


顺序写

顺序读
100

80

80

传输率(MB/s)

100
传输率(MB/s)

32

60
40
20

60
40
20
0

0
4

8

16

32

64

4

8

16

测试过程底层读/写IO统计结果:顺序写(1)
FSPoly 顺序写传输数据大小:4KB
4KB 写,
1301 , 14%

4KB 读, 786 ,
9%

其他, 1195 ,
14%
512KB 写,
5694 , 63%

364KB 写, 135 ,
2%

496KB 写
444KB 写
364KB 写
284KB 写

284KB 写,
131 , 1%

204KB 写,
134 , 1%

444KB
写,
140 ,
2%

496KB 写,
262 , 3%

204KB 写

顺序IO数

124KB 写

非顺序IO数

44KB写

44KB写,
243 , 3%

4KB 读
4KB 写

124KB 写,
149 , 2%

512KB 写
0

1000 2000 3000 4000 5000 6000

iometer 顺序写传输数据块大小:4KB

4KB写

顺序IO数
非顺序IO数

4KB写, 284160 ,
100%
0

50000

100000

150000

200000

250000

300000

顺序写底层IO统计结果分析与重现
• 由以上通过分析iometer与FSPoly顺序写测试过程中底
层IO分布情况(各项IO所占百分比及其顺序读写百分
比),使用iometer重现FSPoly顺序读测试过程,测得结果
如下图.
顺序写
100
90
80
传输率(MB/s)

70
60
50

iometer

40

FSPoly

30

iometer重现FSPoly

20
10
0
4

8

16

32

64

确定工具的测量量程
•

•

测试环境中在各个worker节点采用
工具RamDisk用内存模拟一个硬盘
(256MB)，然后进行并行测试；
顺序读最大可测得10.86GB/s的聚
合带宽
– 8个连接、64kb的传输数据块大小、顺
序读

顺序读
聚合带宽(MB/s)

12000
10000
8000
6000
4000
2000
0
1

2

3

4

5

6

7

8

9 10 15 20 40 80 120160200

进程数

CapFS核心文件系统测评
说明：文件系统有一个
元数据服务器，40个数
据服务器，74台客户端
并与后端磁盘阵列通过
324口IB交换机相连
格式化后逻辑存储容量
69TB,元数据总容量
1.3TB
聚合带宽达到65GB/s
并发连接数达到6658

使用自研工具Fspoly测
试所得

蓝鲸文件系统测评
说明：文件系统有5个
元数据服务器，40台客
户端与后端5台S8000磁
盘阵列通过国防科大研
制的2台具有IB/FC模块
的IBS216Q交换机相连
聚合带宽达到60.2GB/s
并发连接数达到4938
使用自研工具Fspoly测
试所得

元数据吞吐率比较
使用自研工具lzpack测试所得

CapFS元数据吞吐率在测试时所有的元
数据操作均达到104以上

蓝鲸文件系统元数据吞吐率在测试时所
有的元数据操作均达到104以上

高端磁盘阵列测试环境1

八个控制器每两个分为一组，每个控制器下挂载两个由12个盘组成的RAID0盘阵，
两个盘阵为级联,共8个控制器，192块硬盘。共8个客户端，每个客户端对应一个控
制器，由其中的一个客户端作为控制端。

高端磁盘阵列测试环境2
测试节点为4台
Dell R710服务
器，每台服务器配
2张FC HBA卡。
多节点集群，支持
多控多活，各节点
互为业务备份。共
配置8节点(控制
器)，共4个框体。
集群共配置5个数据
控制框，每个数据
控制框配置20个
SATA盘。每个数据
控制框挂载3个硬盘
扩展框。每个硬盘
框配置24个SATA
盘。阵列共460块
1TB SATA盘。

高端磁盘阵列性能指标对比
高端磁盘阵列一性能指标
序号

性能指标

指标值

1

单位时间最大IO操作数(IOPS)

134.8万

2

单位时间最大数据传输率(MB/s)

24494

高端磁盘阵列二性能指标
序号

性能指标

指标值

1

单位时间最大IO操作数(IOPS)

130.9万

2

单位时间最大数据传输率(MB/s)

14074

使用行业基准程序Iometer测试所得，SPC-1,SPC-2也可用于磁盘阵列的性能
测试，但未获得购买许可。

典型应用测试
• 案例一(地质勘探)
– PB级存储系统
– 500节点同时访问
– 单文件2.4G

• 案例二(视频分析)
– PB级存储系统
– 20客户端，6元数据服务器
– 40Gbps InfiniBand交换机
– 最大数据吞吐率60GB/s

Lustre文件系统性能优化
•

浪潮AS300N配置：

•

两个双核CPU： Intel(R) Xeon(R)

E5502；

1.87GHz；133MHz外频；4MB Cache；64字节的
对齐值
•

使用七块300GB大小的SAS接口、15KRPM转速
硬盘组成一个RAID5做为附属存储，格式化之后
有1.7TB（元数据服务器MDS使用四个盘的
RAID0）

•

两个GE网卡，并且已配置成双网卡负载均衡工
作模式(图中各个Client也为此配置)

•

内存：DDR3 1333MHz 16GB

•

操作系统：Linux 2.6.18-164.11.1.e15_lustre.1.8.2

RAID及文件系统配置

8K

16K
32K
RAID5条带大小

64K

•

聚合带宽VS条块数
读

写

250
200
150
100
50
0
1

2

3

4

Lustre的条块数（个）

5

由左图结果可以
看出，当RAID5的
条带大小为32K
时，性能最好。
右图则指出7个盘
的RAID5具有较好
的读写性能。
Lustre的条块数并
不是越多越好，
左图所示当前环
境中，当Lustre条
块数为4时，效果
最好；在此基础
上，当Lustre条块
大小为1MB时，其
聚合带宽性能可
达到最优值。

数据传输率VS RAID5 组成盘数
读
数据传输率（MB/S）

写

•

写

500
400
300
200
100
0
4

5

6

7

8

RAID 5组成盘数（个）

聚合带宽VS条块大小
读

写

250
聚合带宽（MB/S）

读

350
300
250
200
150
100
50
0


数据传输率（MB/S）

数据传输率VS RAID5条带大小

200
150
100
50
0
64K 512K 1M

2M

4M 512M 1G

Lustre的条块大小（字节）

不同负载下的聚合带宽
聚合带宽VS读写块大小
读

聚合带宽VS 连接数

线性 (读)

写

读

200

写

300
250



250

150
100
50
0
8K

16K

64K 512K

1M

2M

4M

200
150
100
50
0
1

2

3

4

5

6

7

8 10 20 50 100150

读写块大小（字节）

连接数（个）

聚合带宽VS客户端数量

• 从图中可以看出，读写块大小对
Lustre的性能影响较小；当单个
客户端的连接数为4时，读性能
最好，连接数为1时，写性能最
优；客户端增加时读性能持续增
长，写性能持续下降。

读

写


1000
800
600
400
200
0
1

2

3

4

5

6

客户端数量（个）

7

8

大数据时代的benchmark的挑战
• 被测系统规模越来越大，构筑与之匹配的
测试系统成本太高。
– 在线测试:测试负载+真实负载，测试变化量
– 离线测试:通过对log等被测系统输出分析

• 应用种类繁多，系统规模和配置变化快，
如何选择有代表性的benchmark
– 应用接口，数据负载，组合模式，测试环境
– 接口测试更准确，但无法刻画应用性能
– 应用性能由应用描述，并使用探针程序长时间
持续进行数据采集

西北工业大学计算机学院张晓
zhangxiao@nwpu.edu.cn
QQ:27728221
研究方向:
海量存储系统评测
云计算及云存储系统
分布式系统

张晓：大数据存储与访问测试基准

张晓：大数据存储与访问测试基准

Recommended

Recommended

More Related Content

Similar to 张晓：大数据存储与访问测试基准

Similar to 张晓：大数据存储与访问测试基准 (20)

More from hdhappy001

More from hdhappy001 (20)

张晓：大数据存储与访问测试基准