周敏奇:Cliaims—集群感知的内存计算系统
Upcoming SlideShare
Loading in...5
×
 

周敏奇:Cliaims—集群感知的内存计算系统

on

  • 508 views

BDTC 2013 Beijing China

BDTC 2013 Beijing China

Statistics

Views

Total Views
508
Views on SlideShare
508
Embed Views
0

Actions

Likes
0
Downloads
2
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

周敏奇:Cliaims—集群感知的内存计算系统 周敏奇:Cliaims—集群感知的内存计算系统 Presentation Transcript

  • CLAIMS:集群感知的内存计算系统 CLAIMS:CLuster-Aware In-Memory System for High Performance Data Analysis 周敏奇 华东师范大学云计算与大数据研究中心
  • 提纲 • 实时(Human Real-time)分析的应用需求 • 计算机硬件的发展已使实时分析成为可能 – 内存、处理器、网络 • 内存集群计算环境下的数据处理瓶颈 – 通讯墙(Communication Wall)问题定义 – 通讯墙对数据处理的影响 • CLAIMS系统 – 系统简介 – 性能对比 • 结论 华东师范大学云计算与大数据研究中心
  • 实时数据分析型应用 客户关系管理 股票交易异常检测 供应链优化 • 批处理式分析->交互式分析 • 实时交互式数据分析(Human Real-time):思 绪的时速(Speed of Thought) • Gartner:2012年实时商务智能软件市值$130 亿 华东师范大学云计算与大数据研究中心
  • 提纲 • 实时(Human Real-time)计算的应用需求 • 计算机硬件的发展已使实时分析成为可能 – 内存、处理器、网络 • 内存集群计算环境下的数据处理瓶颈 – 通讯墙(Communication Wall)问题定义 – 通讯墙对数据处理的影响 • CLAIMS系统 – 系统简介 – 性能对比 • 结论 华东师范大学云计算与大数据研究中心
  • 机架式服务器内存容量 R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M CPU R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M 2 ×CPU服务器,768 GB内存,内 存价格 $6,000 • 4 ×CPU服务器,1.5 TB内存,内 存价格$12,000 • 8 ×CPU服务器,3 TB 内存,内存 价格$24,000 服务器具备大容量内存的扩展能力, 价格已在可接受的范围之内,内存 时代已经来临。 R A M 4 IVY Bridge,1.5 TB内存 R A M 2 Intel IVY Bridge处理器,768 GB内存 R A M 12×32GB R A M 12×32GB R A M R A M R A M R A M R A M R A M R A M R A M R A M CPU CPU R A M R A M R A M R A M R A M R A M R A M R A M CPU R A M R A M R A M R A M R A M R A M CPU CPU R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M CPU R A M R A M R A M CPU R A M R A M R A M R A M R A M R A M R A M QPI R A M R A M R A M CPU R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M RAM RAM QPI R A M RAM RAM CPU R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM R A M RAM RAM RAM RAM RAM RAM R A M R A M RAM R A M R A M R A M R A M RAM R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M RAM R A M R A M R A M R A M R A M CPU R A M CPU R A M QPI CPU CPU 8 IVY Bridge,3 TB内存 • 2014年间,DDR3内存价格将有13%的下降 DDR4内存价格将有10%的下降 Source: http://wccftech.com/intel-broadwell-supports-ddr4-memory-server-platforms-arriving-consumers-2014/ 华东师范大学云计算与大数据研究中心
  • 超大规模内存集群的出现 传统X86系统扩展 HP Gemini 服务器扩展 降低 94% 空间 89% 能耗 63% 成本 • • • • 1000节点集群,传统X86 1U服务器需要24机架 1000节点集群,HP Gemini仅需一个机架 单个微服务器,1×8核处理器,4×32GB内存, 1×1TB磁盘 单个Gemini机架,128TB内存,1PB磁盘 面向大数据的内存集群计算时代已经来临 华东师范大学云计算与大数据研究中心
  • 具有充沛的计算能力 众核处理器架构 Logical Processor 1 Arch states (Registers) Logical Processor 2 Logical Processor 1 Arch states (Registers) ALU Arch states (Registers) … Logical Processor 2 Arch states (Registers) ALU Cache(s) Cache(s) Core 1 Core n Cache(s) Source: http://2.bp.blogspot.com/-liLwtV_GT_o/T5CSRWJqxoI/AAAAAAAAAPk/6dEJ6kvyzzc/s0/IntelsMulticoreReality.png NUMA RAM 单CPU,12核,24超线程,2.7Ghz时钟 频率已商用 • 单CPU具备的累积时钟频率:64.8Ghz 处理器技术已具备100核的扩展能力,但市 场依旧需保持单核的高频率(历史单线程 程序),但处理器已具备充沛的内存数据 处理能力,未来将更为富足 Number of Cores inside CPU • Source: In-memory data management: an inflection point for enterprise applications. 华东师范大学云计算与大数据研究中心
  • RAM RAM RAM RAM RAM RAM Intel E5-2697, IVY Bridge 处理器 RAM RAM RAM Channel H Channel D RAM Channel G RAM CPU RAM QPI IMC DIMM 1 CPU QPILC DIMM 2 Channel F QPILC DIMM 3 Channel C Channel E IMC RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM Channel B RAM Channel A RAM 内存访问带宽充足 DIMM 1 DIMM 2 DIMM 3 单条内存带宽 1333 1333 Mbps Mbps 1DIMM/ch 2 DIMM/ch 800 Mbps 800 800 Mbps Mbps 3DIMM/ch 单通道内存带宽 单通道,1 DIMM,1600内存, 带宽:25.6GB/s • 单通道,3 DIMM,800内存, 带宽:12.8GB/s • 单CPU,4通道内存带宽: 51.2GB/s • 单服务器,2CPU NUMA内存 带宽:102.4GB/s 多通道的内存控制能提供足够的 内存带宽 • Source: Samsung DDR4 SDRAM brochure,2013.6 1600 Mbps 华东师范大学云计算与大数据研究中心
  • 内存访问延迟严重 Phys. Virt. TLB Core L1 cache Phys. Virt. CPU TLB L2 cache Core L1 cache L2 cache L1 D Cache (clk) 顺序访问 页内随机访问 完全随机访问 L3 cache 4 clk 4 clk 4 clk L2 Cache (clk) L3 Cache (clk) 11 clk 14 clk 11 clk 18 clk 11 clk 38 clk Memory (clk) 16.2 clk 59.4 clk 178 clk Intel E5-2697,2.7Ghz, 内存访问延迟 NUMA RAM Intel E5-2697内存访问结构 过去30年内,内存访问带宽增速比访 问延迟高200倍 • 低访问延迟可以提升访问带宽 • 高访问带宽无法降低访问延迟 • 访问延迟受硬件制成cache命中率,TLB 命中率等影响 内存访问延时很大,形成内存墙问题 • 内存墙问题,始自1994年 华东师范大学云计算与大数据研究中心
  • 数据中心网络部署  按照数据中心普遍铺设10G网络计算,节点与节 点之间的最大数据传输带宽为1.2GB/S 华东师范大学云计算与大数据研究中心 10
  • 提纲 • 实时(Human Real-time)计算的应用需求 • 计算机硬件的发展已使实时分析成为可能 – 内存、处理器、网络 • 内存集群计算环境下的数据处理瓶颈 – 通讯墙(Communication Wall)问题定义 – 通讯墙对数据处理的影响 • CLAIMS系统 – 系统简介 – 性能对比 • 结论 华东师范大学云计算与大数据研究中心
  • Amdahl’s Law:平衡系统定理 • Amdahl’s Law:平衡的系统需配备1 CPU周期1 bit的I/O带宽 • 以磁盘为数据存储媒介, 系统瓶颈在于磁盘I/O • 集中式环境下,以内存为 数据存储媒介,系统瓶颈 在于内存 • CPU 4clk/bit NUMA RAM 内存集群计算的瓶颈在于通讯, 但Hadoop的瓶颈在于磁盘 13clk/bit Ethernet 27clk/bit 分布式环境下,以内存为 数据存储媒介,系统瓶颈 在于网络 CPU RAID NUMA RAM Ethernet RAID 2× Intel E5-2697 处理器(2.7Ghz,12核,24线程), 24 ×32GB RAM(1600),10×72k disk,10GB Ethernet 华东师范大学云计算与大数据研究中心
  • 通讯墙问题 • 通讯墙(Communication Wall):内存集群计 算环境下,通讯成为整个系统的瓶颈 • 设单个节点:2处理器,12核, 24超线程, 768GB内存,10G 以太 网 – 拥有的内存访问带宽 102.4GB/S – 拥有网络带宽1.2GB/S – 拥有处理资源48核 • 数据处理选择率>1.2%时 Communication Wall CPU CPU Memory Memory Node Node – 网络传输成为瓶颈 华东师范大学云计算与大数据研究中心 13
  • 通讯瓶颈实验 数据访问性能比较 数据记录大小影响 数据获取性能 硬件: 2CPUs, 16GB Memory, Ethernet 1G bps 数据表: 4GB 表文件,包含可变长度的记 录,存储于本地磁盘和远端内存 Disk I/O Bottleneck: Vulnerable to the random disk access 随机磁盘数据性能 干扰很大 Memory Wall: Vulnerable to the data placement in the memory (partly because of the length of the record) Communication Wall: Limited network bandwidth comparing to tremendous large data movement in the cluster. 华东师范大学云计算与大数据研究中心
  • 通讯墙对并行度的影响 • Amdahl’s Law:并行系统性能提升率(Soverall), 由不可并行因子(1-F)和可并行因子(F) 的并行度(Sopt)决定: nodes 启动时间 处理时间 0 内存集群系统 任务启动时间 数据处理时间 Time Hadoop系统 》 任务启动时间 数据处理时间 其他不可并行因子:数据倾斜,处理干扰具 有相类似的作用 内存集群系统与磁盘集群系统相比具有更低 的可扩展度,为此数据布局方面,针对不同 大小的数据集采用不同的并行度。 华东师范大学云计算与大数据研究中心 多任务启动时间开销
  • 通讯墙对索引的影响 在内存中扫描64MB数据块仅需50-100ms 获取数据的起始时间段内性能较为不稳定 现有CPU缓存较大,索引访问可获得较高的稳定速度 结论:访问起始时间段内,较高选择率时,索引依然适用;对于需多遍访问数 据的操作符,索引有效;集群环境下,每个参与处理节点,需要分配较多操作 符,以降低中间结果数量 与选择率50%的顺序 扫描对比,索引性 能依然更高 集群环境下,索引 性能受限于网络 单机索引与顺序扫描性能对比,4GB文件 多机远程索引数据获取性能 华东师范大学云计算与大数据研究中心
  • 通讯墙对执行引擎的影响 流水线并行中嵌入分块并行 分块并行中嵌入流水线并行 Aggregation Aggregat ion Reduce Exchange Filter Filter Map Map Filter Filter Join Join Node Node Partitioned Synchronization Join Join Reduce Reduce Exchange Filter Filter Filter Filter Map SCAN Map SCAN Map Filter SCAN SCAN SCAN Node SCAN Filter Node Node Partitioned e.g., Tendem, SQL Server, Gamma, Spark e.g., Volcano, SCOPE, DYRAD,CLAIMS • • 全局分块并行系统,如Hadoop,Spark,Shark等系统,在数据传输前需等待 全局流水线并行系统,如Volcano,SCOPE,DYRAD,CLAIMS, 华东师范大学云计算与大数据研究中心
  • 通讯墙对查询优化的影响 • 任务执行节点的选择和组合,影响数据传输量 • 流水线式并行处理,数据传输具有时效性 与传统查询优化相比,需要动态的优化策略; 与MapReduce优化相比,需要优化Reduce端的数据局部性 华东师范大学云计算与大数据研究中心
  • 提纲 • 实时(Human Real-time)计算的应用需求 • 计算机硬件的发展已使实时分析成为可能 – 内存、处理器、网络 • 内存集群计算环境下的数据处理瓶颈 – 通讯墙(Communication Wall)问题定义 – 通讯墙对数据处理的影响 • CLAIMS系统 – 系统简介 – 性能对比 • 结论 华东师范大学云计算与大数据研究中心
  • CLAIMS简介 • CLAIMS:CLuster-Aware In-Memory System for high performance data analysis • 应用目标:OLAP型应用,类似于Teradata • 数据类型:关系型数据为主,可以扩展到 非结构化数据 • 数据存储:按列存储 • 优化目标:解决通讯墙问题 华东师范大学云计算与大数据研究中心 20
  • CLAIMS的定位 • CLAIMS与Shark(Spark),Hive(Hadoop)在同一层次上 • 应用目标:对接现有MySQL客户端,R统计分析包,报 表软件 • 性能目标:对海量关系型数据实现实时分析 • 数据来源:1.操作数据库系统的关系型数据 2. 抽取自非结构化数据 SQL Client R Package Report Application SQL HANA Teradata CLAIMS Shark Hive Spark Hadoop MR HDFS 华东师范大学云计算与大数据研究中心 HDFS
  • 对非结构化数据的支持 • 底层存储采用HDFS – – – – 现有大量的数据存储于HDFS之中 希望能融入Hadoop生态圈 简化多类源数据的融合问题 数据抽取:实现HDFS非结构到内存关系数据转换 Memory Data Load Input State Load Input Load Input State Extractor Input State State Schema Open Next Close Open Next Close Input State Schema Schema Extractor Memory Data Memory Data Open Next Close Extractor Distributed File System (e.g., HDFS) 华东师范大学云计算与大数据研究中心 Input State
  • 系统架构 • • • 硬件: 面向高性能集群,通过高速网络互连. 每个节点拥有多个处理器和大容量内存. 架构: Master/Slave结构,由无共享节点组成的集群 优点:高可扩展性、高性能、解决通讯墙问题 Master SQL Data Flow Control Flow Scheduler Query Parser Optimization Clients Resource Manager Data Exchanger Program Operator Expander Results Slave Memory Data Slave Memory Data Slave Memory Data Slave Memory Data Distributed File System (e.g., HDFS) 华东师范大学云计算与大数据研究中心 Slave Memory Data
  • 性能对比实验 • 数据集 – 证交所交易数据 • 1天(5GB数据), • 1周(40GB数据) • 1月(90GB数据) • 查询 – 证交所分析查询 • 集群 – 10 × HP DL388P,2 × 4核 CPU,16GB,5 × 1TB磁盘, 1GB以太网 任务启动时间 华东师范大学云计算与大数据研究中心
  • 性能对比(1) 数据导入磁盘速度 数据导入内存速度 华东师范大学云计算与大数据研究中心
  • 性能对比(2) Filter操作时间 Join操作时间 Shark在40GB,90GB数据集上未能完成 华东师范大学云计算与大数据研究中心
  • 性能对比(3) Aggregation时间对比 华东师范大学云计算与大数据研究中心 真实查询性能对比
  • 性能提升原因分析 • 采用C++编码,实现有效内 存控制,包括布局、回收、 替换 • 实现非一致内存访问 (NUMA)优化, • 通过Data Exchange操作符, 实现仅需求数据传输 • 通过Operator Expander操作 符,实现操作符扩展,以充 分利用网络带宽 • 数据传输、数据局部性的全 局优化 • 索引支持(hash索引) 分块并行 华东师范大学云计算与大数据研究中心 28
  • 时间表 内存集群计算组成员: 周傲英,周敏奇,王立(博士生),董少婵(硕士生, 女),顾伶(硕,女),李永峰(硕),张磊(硕),张 新洲(硕)。 系统开发时间表: 2012年9月-11月, 需求分析 2012年11月-13年3月,系统架构设计 2013年3月-11月, 系统主体开发完成 2013年12月-14年4月,代码整理,文档整理,工具开发 2014年4月-5月, 第一个开源版本发布 华东师范大学云计算与大数据研究中心
  • 结论 • 内存集群计算是应用需求和硬件发展的必 然趋势 • 通讯墙问题成为内存集群计算的主要瓶颈 – 内存集群系统的可扩展性比磁盘集群系统差 – 流水线式并行处理可有效利用带宽 – 动态查询优化可有效解决通讯墙问题 • CLAISMS系统在实时处理数据分析方面已获 得较高性能 – 希望大家多多支持国货。 华东师范大学云计算与大数据研究中心
  • 华东师范大学云计算与大数据研究中心