• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
张晓:大数据存储与访问测试基准
 

张晓:大数据存储与访问测试基准

on

  • 406 views

BDTC 2013 Beijing China

BDTC 2013 Beijing China

Statistics

Views

Total Views
406
Views on SlideShare
406
Embed Views
0

Actions

Likes
1
Downloads
2
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    张晓:大数据存储与访问测试基准 张晓:大数据存储与访问测试基准 Presentation Transcript

    • 大数据存储与访问测 试基准 西北工业大学 张晓 zhangxiao@nwpu.edu.cn 2013-12-06
    • 目录 • • • • • 存储和处理大数据面临的问题 海量存储系统评测体系 性能评测指标及方法 评测结果 文件系统性能优化
    • 海量(大)数据的产生 社交网络分析系统 Google搜索 Google搜索,每天查询处理24PB数据 Facebook每小时创造130万消息 物联网数据处理系统 沃尔玛每小时处理100多万笔交易,数 据库大小超过2500万亿Byte(2PB) 全国5亿手机用户, 每日产生30TB话单数据 每分钟发送邮件数量达到2.9万封 淘宝、京东等购物网站 每小时处理百万笔交易 IDC统计,数据会以 每年60%的速度增长 海量且快速增长的数据对数据存储 和数据管理系统提出了更高的要求
    • 海量(大)数据衍生大变革 智慧城市 大数据时代的到来给智慧城市的建设带来了新兴的增长 机会。 产业创新 从IT业,制造业,金融业,甚至是体育产业和旅游产业 中都能发现大数据所带来的变革。 科研创新 在天文观测、气象监测、生物基因、物理仿真等数据密 集型科学研究中都将遭遇大数据的挑战。 2012年奥巴马政府公布了2亿美元的“大数据研发计划” 美国 卫生保健 年增加产业价值 $300 B 制造业 减少开发和 组装成本 –50% 全球个人 位置数据 增加服务 提供者收益 $100 B 欧洲公共 部门管理 美国零售业 增加产业价值 增加净利润率 €250 B 60+%
    • 海量(大)数据存储和管理 海量数据 数据 海量数据存储 = 海 量 数 据 管 理 数据存储中心建设成为全球建设热点 计算为核心è网络为核心è数据为核心 拥有数据 è 管理数据
    • 海量数据存在哪里? • • • • 并行数据库 NoSQL数据管理系统 NewSQL数据管理系统 分布式文件系统 – – – – Lustre HDFS GFS …
    • 问题在哪里? • 大数据在产生,保存,访问时都对存储系统有 较高的要求 – 高并发 – 高吞吐量—聚合访问带宽 – 高可扩展性 • PB级海量存储系统的研究成果 – 海量存储系统测试的层次和方法 – 海量存储系统测试体系,评测工具的开发 – 实际PB级系统测试结果 • 如何利用测试结果对存储系统进行优化。
    • 海量存储系统层次与指标 • 评测体系 – 海量存储系统分为应用层性 能,存储系统软件,信息核心 组织系统,存储网络,存储设 备五个部分,共设计20项指标 • 评测规范 典型应用 核心系统及关键 存储软件 核心系统及关键 存储软件 核心系统 – 对20项指标分别设计评测方法 及与之对应的评测工具 • 评测工具 FC交换机 IB交换机 – 应用层性能: fsrecord, fsreplay – 文件系统性能: Lzpack,fspoly,iozone,SPECsfs2008 – 磁盘阵列: Iometer,SPC – 交换设备: iperf,netperf,ib_bw 存储系统 软件 存储网络 存储设备 高端磁盘阵列
    • 评测体系构成 评测 指标 建立反映海量存储系统特性的,全面的评测 指标。 评测 方法 根据指标的定义,确定采用何种方法对存储 系统进行测试。包括通用和特有的评测方 法。 采用国际通用或自行开发的工具进行评测。 开发各自的评测工具。 评测 工具 应用 场景 包括trace采集结果,IO负载模型,故障和 可管理事件模型。
    • 性能评测体系 性能评测指标共分为5类,合计20项
    • 性能评测工具集 测试内容 采集用户环境下的IO Trace 自主开发 Trace重放fsreplay 重放指定格式的IO Trace 自主开发 测试NFS,CIFS文件服务性能标准及工具 购买 文件系统接口测试 lzpack 测试文件系统接口元数据和数据吞吐量 自主开发 并发数及聚合带宽测试 工具fspoly 在多个节点上运行多个并行读写程序 自主开发 测试核心文件系统的元数据吞吐量 自主开发 测试IB适配器的带宽 开源工具 Iperf 网络性能测试工具 开源工具 netperf 网络性能测试工具 开源工具 IOMeter 测试磁盘阵列的IOPS和数据传输率 开源工具 SPC-1 测试磁盘阵列的IOPS和数据传输率 未购到 SPC-2 磁盘阵列性 能 Trace采集fsrecord 带宽测试软件 网络性能 来源 Multi PostMark 核心文件系 统性能 功能 SPEC_sfs2009 应用层性能 工具名称 测试磁盘阵列的大数据应用性能 未购到 性能测试工具集共包括12个软件,对现有工具无法测试指标,开发了5个测试工具。
    • Lzpack--访问接口性能 • 工具:lzpack • 功能 – 可以评测兼容POSIX1.0的文件系 统。 – 可以评测12项数据读写的性能 – 可以评测10项元数据操作的性能 • 优点 – 测试结果准确 – 测试内容全面并具有较强的扩展 性 – 通过配置文件可选择测试任意一 个或多个接口性能 – 通过命令行参数可指定文件大 小,读写块大小等参数
    • 工具使用环境 工具在评测集群 上使用,评测集 群中各个节点同 时挂载并行文件 系统。 测试由一个总控 节点控制,多个 负载生成节点同 时对并行文件系 统产生负载,进 行评测。
    • 工具正确性验证 • Bonnie++的对比测 试 – – – – • 设置文件大小 4G, 8G,16G,32G 采用文件系统 默认的文件块 大小及一个节 点 测试write, read,putc, getc的速率 使用与bonie++ 相同的读写块 大小8KB,顺序 读写 较小文件测试 时,两工具结果 基本相当,lzpack 略优,当文件较 大时,Bonnie++的 测试性能开始下 降, 测试结果 Bonnie++ 4G文件大小 16G文件大小 LzPack 8G文件大小 32G文件大小
    • Fspoly-聚合带宽和并发数测试 • 工具:FsPoly • 功能:在用户环境下测试核心文 件系统的聚合带宽和并发数 结构:由Windows上的总控节点 (GUI)和Linux上的负载生成节点 构成。 • • 优点: – 测试结果准确(Iometer) – 支持多种文件系统 – 支持IA32,IA64,EMT64等多 种架构 – 可定制不同访问模式和策略, 并指定给不同的节点。 controlor testor testor testor FC/ IB testor
    • 正确性证明测试环境 — 使用测试节点相关配置: ü ü ü ü ü ü ü 机型:HP Compaq dx2355 商务机型 OS:Red Hat EnterPrise Linux 5.3 内核:2.6.18-128.el5xen 内存:DDR2,2.5GB,800MHZ 硬盘:Western Digital产品; SATA接口; 7200rpm;8MB缓 存;250GB容量硬盘一块; CPU:型号:AMD Athlon(tm) Dual Core Processor 5000B; 2.6GHZ 主频; Cahe:512KB;200MHZ外频. FS:EXT3;块大小 4KB. 在测试节点上开创一个20GB大小的分区,使用iometer 对此分区进行测试。 — 使用EXT3文件系统对上一步的20GB的分区进行格式 化;再使用FSPoly通过创建一个20GB大小的文件, 进行测试。 — 将iometer与FSPoly的结果进行对比,分析, 验证FSPoly 的正确性. 总控端Controlor — HP Compaq dx2355
    • FSPoly与iometer测试结果对比 测试结果: 随机读 随机写 8 14 传输率(MB/s) 传输率(MB/s) 12 6 4 2 10 8 6 4 2 0 0 4 8 16 32 64 4 8 16 传输数据块大小(KB) 64 32 64 传输数据块大小(KB) 顺序写 顺序读 100 80 80 传输率(MB/s) 100 传输率(MB/s) 32 60 40 20 60 40 20 0 0 4 8 16 传输数据块大小(KB) 32 64 4 8 16 传输数据块大小(KB)
    • 测试过程底层读/写IO统计结果:顺序写(1) FSPoly 顺序写 传输数据大小:4KB 4KB 写, 1301 , 14% 4KB 读, 786 , 9% 其他, 1195 , 14% 512KB 写, 5694 , 63% 364KB 写, 135 , 2% 496KB 写 444KB 写 364KB 写 284KB 写 284KB 写, 131 , 1% 204KB 写, 134 , 1% 444KB 写, 140 , 2% 496KB 写, 262 , 3% 204KB 写 顺序IO数 124KB 写 非顺序IO数 44KB写 44KB写, 243 , 3% 4KB 读 4KB 写 124KB 写, 149 , 2% 512KB 写 0 1000 2000 3000 4000 5000 6000 iometer 顺序写 传输数据块大小:4KB 4KB写 顺序IO数 非顺序IO数 4KB写, 284160 , 100% 0 50000 100000 150000 200000 250000 300000
    • 顺序写底层IO统计结果分析与重现 • 由以上通过分析iometer与FSPoly顺序写测试过程中底 层IO分布情况(各项IO所占百分比及其顺序读写百分 比),使用iometer重现FSPoly顺序读测试过程,测得结果 如下图. 顺序写 100 90 80 传输率(MB/s) 70 60 50 iometer 40 FSPoly 30 iometer重现FSPoly 20 10 0 4 8 16 传输数据块大小(KB) 32 64
    • 确定工具的测量量程 • • 测试环境中在各个worker节点采用 工具RamDisk用内存模拟一个硬盘 (256MB),然后进行并行测试; 顺序读最大可测得10.86GB/s的聚 合带宽 – 8个连接、64kb的传输数据块大小、顺 序读 顺序读 聚合带宽(MB/s) 12000 10000 8000 6000 4000 2000 0 1 2 3 4 5 6 7 8 9 10 15 20 40 80 120160200 进程数
    • CapFS核心文件系统测评 说明:文件系统有一个 元数据服务器,40个数 据服务器,74台客户端 并与后端磁盘阵列通过 324口IB交换机相连 格式化后逻辑存储容量 69TB,元数据总容量 1.3TB 聚合带宽达到65GB/s 并发连接数达到6658 使用自研工具Fspoly测 试所得
    • 蓝鲸文件系统测评 说明:文件系统有5个 元数据服务器,40台客 户端与后端5台S8000磁 盘阵列通过国防科大研 制的2台具有IB/FC模块 的IBS216Q交换机相连 聚合带宽达到60.2GB/s 并发连接数达到4938 使用自研工具Fspoly测 试所得
    • 元数据吞吐率比较 使用自研工具lzpack测试所得 CapFS元数据吞吐率在测试时所有的元 数据操作均达到104以上 蓝鲸文件系统元数据吞吐率在测试时所 有的元数据操作均达到104以上
    • 高端磁盘阵列测试环境1 八个控制器每两个分为一组,每个控制器下挂载两个由12个盘组成的RAID0盘阵, 两个盘阵为级联,共8个控制器,192块硬盘。共8个客户端,每个客户端对应一个控 制器,由其中的一个客户端作为控制端。
    • 高端磁盘阵列测试环境2 测试节点为4台 Dell R710服务 器,每台服务器配 2张FC HBA卡。 多节点集群,支持 多控多活,各节点 互为业务备份。共 配置8节点(控制 器),共4个框体。 集群共配置5个数据 控制框,每个数据 控制框配置20个 SATA盘。每个数据 控制框挂载3个硬盘 扩展框。每个硬盘 框配置24个SATA 盘。阵列共460块 1TB SATA盘。
    • 高端磁盘阵列性能指标对比 高端磁盘阵列一性能指标 序号 性能指标 指标值 1 单位时间最大IO操作数(IOPS) 134.8万 2 单位时间最大数据传输率(MB/s) 24494 高端磁盘阵列二性能指标 序号 性能指标 指标值 1 单位时间最大IO操作数(IOPS) 130.9万 2 单位时间最大数据传输率(MB/s) 14074 使用行业基准程序Iometer测试所得,SPC-1,SPC-2也可用于磁盘阵列的性能 测试,但未获得购买许可。
    • 典型应用测试 • 案例一(地质勘探) – PB级存储系统 – 500节点同时访问 – 单文件2.4G • 案例二(视频分析) – PB级存储系统 – 20客户端,6元数据服务器 – 40Gbps InfiniBand交换机 – 最大数据吞吐率60GB/s
    • Lustre文件系统性能优化 • 浪潮AS300N配置: • 两个双核CPU: Intel(R) Xeon(R) E5502; 1.87GHz;133MHz外频;4MB Cache;64字节的 对齐值 • 使用七块300GB大小的SAS接口、15KRPM转速 硬盘组成一个RAID5做为附属存储,格式化之后 有1.7TB(元数据服务器MDS使用四个盘的 RAID0) • 两个GE网卡,并且已配置成双网卡负载均衡工 作模式(图中各个Client也为此配置) • 内存:DDR3 1333MHz 16GB • 操作系统:Linux 2.6.18-164.11.1.e15_lustre.1.8.2
    • RAID及文件系统配置 8K 16K 32K RAID5条带大小 64K • 聚合带宽VS条块数 读 写 250 200 150 100 50 0 1 2 3 4 Lustre的条块数(个) 5 由左图结果可以 看出,当RAID5的 条带大小为32K 时,性能最好。 右图则指出7个盘 的RAID5具有较好 的读写性能。 Lustre的条块数并 不是越多越好, 左图所示当前环 境中,当Lustre条 块数为4时,效果 最好;在此基础 上,当Lustre条块 大小为1MB时,其 聚合带宽性能可 达到最优值。 数据传输率VS RAID5 组成盘数 读 数据传输率(MB/S) 写 • 写 500 400 300 200 100 0 4 5 6 7 8 RAID 5组成盘数(个) 聚合带宽VS条块大小 读 写 250 聚合带宽(MB/S) 读 350 300 250 200 150 100 50 0 聚合带宽(MB/S) 数据传输率(MB/S) 数据传输率VS RAID5条带大小 200 150 100 50 0 64K 512K 1M 2M 4M 512M 1G Lustre的条块大小(字节)
    • 不同负载下的聚合带宽 聚合带宽VS读写块大小 读 聚合带宽VS 连接数 线性 (读) 写 读 200 写 300 250 聚合带宽(MB/S) 聚合带宽(MB/S) 250 150 100 50 0 8K 16K 64K 512K 1M 2M 4M 200 150 100 50 0 1 2 3 4 5 6 7 8 10 20 50 100150 读写块大小(字节) 连接数(个) 聚合带宽VS客户端数量 • 从图中可以看出,读写块大小对 Lustre的性能影响较小;当单个 客户端的连接数为4时,读性能 最好,连接数为1时,写性能最 优;客户端增加时读性能持续增 长,写性能持续下降。 读 写 聚合带宽(MB/S) 1000 800 600 400 200 0 1 2 3 4 5 6 客户端数量(个) 7 8
    • 大数据时代的benchmark的挑战 • 被测系统规模越来越大,构筑与之匹配的 测试系统成本太高。 – 在线测试:测试负载+真实负载,测试变化量 – 离线测试:通过对log等被测系统输出分析 • 应用种类繁多,系统规模和配置变化快, 如何选择有代表性的benchmark – 应用接口,数据负载,组合模式,测试环境 – 接口测试更准确,但无法刻画应用性能 – 应用性能由应用描述,并使用探针程序长时间 持续进行数据采集
    • 西北工业大学计算机学院 张晓 zhangxiao@nwpu.edu.cn QQ:27728221 研究方向: 海量存储系统评测 云计算及云存储系统 分布式系统