周敏奇：Cliaims—集群感知的内存计算系统

CLAIMS：集群感知的内存计算系统
CLAIMS：CLuster-Aware In-Memory System
for High Performance Data Analysis

周敏奇
华东师范大学云计算与大数据研究中心

提纲
• 实时（Human Real-time）分析的应用需求
• 计算机硬件的发展已使实时分析成为可能
– 内存、处理器、网络

• 内存集群计算环境下的数据处理瓶颈

– 通讯墙（Communication Wall）问题定义
– 通讯墙对数据处理的影响

• CLAIMS系统
– 系统简介
– 性能对比

• 结论

实时数据分析型应用

客户关系管理

股票交易异常检测

供应链优化

• 批处理式分析->交互式分析
• 实时交互式数据分析（Human Real-time）：思
绪的时速（Speed of Thought）
• Gartner：2012年实时商务智能软件市值$130
亿

提纲
• 实时（Human Real-time）计算的应用需求
• 计算机硬件的发展已使实时分析成为可能
– 内存、处理器、网络

• 内存集群计算环境下的数据处理瓶颈

– 通讯墙（Communication Wall）问题定义
– 通讯墙对数据处理的影响

• CLAIMS系统
– 系统简介
– 性能对比

• 结论

机架式服务器内存容量
R
A
M
R
A
M
R
A
M

R
A
M

R
A
M
R
A
M
R
A
M
R
A
M

R
A
M

R
A
M
R
A
M
R
A
M

CPU

R
A
M
R
A
M

R
A
M

R
A
M

R
A
M

R
A
M
R
A
M

R
A
M
R
A
M
R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M
R
A
M
R
A
M

2 ×CPU服务器，768 GB内存，内
存价格 $6,000
• 4 ×CPU服务器，1.5 TB内存，内
存价格$12,000
• 8 ×CPU服务器，3 TB 内存，内存
价格$24,000
服务器具备大容量内存的扩展能力，
价格已在可接受的范围之内，内存
时代已经来临。

R
A
M

4 IVY Bridge，1.5 TB内存

R
A
M

2 Intel IVY Bridge处理器，768 GB内存

R
A
M

12×32GB

R
A
M

12×32GB

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M
R
A
M

R
A
M
R
A
M

CPU

CPU

R
A
M

R
A
M

R
A
M
R
A
M

R
A
M
R
A
M

R
A
M

R
A
M

CPU

R
A
M

R
A
M
R
A
M
R
A
M

R
A
M

R
A
M

CPU

CPU

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M
R
A
M

CPU

R
A
M

R
A
M
R
A
M

CPU

R
A
M

R
A
M

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M

QPI

R
A
M

R
A
M
R
A
M

CPU

R
A
M

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M
R
A
M
R
A
M

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M

RAM
RAM

QPI
R
A
M

RAM
RAM

CPU

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M
R
A
M

R
A
M

R
A
M
R
A
M

RAM

RAM

RAM
RAM
RAM

RAM
RAM
RAM

RAM

RAM

RAM

R
A
M

RAM

RAM

RAM

RAM

RAM

RAM

R
A
M
R
A
M

RAM

R
A
M

R
A
M

R
A
M

R
A
M

RAM

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

RAM

R
A
M

R
A
M

R
A
M

R
A
M

R
A
M

CPU

R
A
M

CPU

R
A
M

QPI
CPU

CPU

8 IVY Bridge，3 TB内存

•

2014年间，DDR3内存价格将有13%的下降
DDR4内存价格将有10%的下降

Source: http://wccftech.com/intel-broadwell-supports-ddr4-memory-server-platforms-arriving-consumers-2014/


超大规模内存集群的出现
传统X86系统扩展

HP Gemini 服务器扩展

降低
94% 空间
89% 能耗
63% 成本

•
•
•
•

1000节点集群，传统X86 1U服务器需要24机架
1000节点集群，HP Gemini仅需一个机架
单个微服务器，1×8核处理器，4×32GB内存，
1×1TB磁盘
单个Gemini机架，128TB内存，1PB磁盘

面向大数据的内存集群计算时代已经来临

具有充沛的计算能力
众核处理器架构
Logical
Processor 1

Arch states
(Registers)

Logical
Processor 2

Logical
Processor 1

Arch states
(Registers)

ALU

Arch states
(Registers)

…

Logical
Processor 2

Arch states
(Registers)

ALU

Cache(s)

Cache(s)

Core 1

Core n
Cache(s)
Source: http://2.bp.blogspot.com/-liLwtV_GT_o/T5CSRWJqxoI/AAAAAAAAAPk/6dEJ6kvyzzc/s0/IntelsMulticoreReality.png

NUMA RAM

单CPU，12核，24超线程，2.7Ghz时钟
频率已商用
• 单CPU具备的累积时钟频率：64.8Ghz
处理器技术已具备100核的扩展能力，但市
场依旧需保持单核的高频率（历史单线程
程序），但处理器已具备充沛的内存数据
处理能力，未来将更为富足

Number of Cores inside CPU

•

Source: In-memory data management: an inflection point for enterprise applications.


RAM

RAM

RAM

RAM

RAM

RAM

Intel E5-2697, IVY Bridge 处理器

RAM

RAM
RAM

Channel H
Channel D

RAM

Channel G

RAM

CPU

RAM

QPI

IMC

DIMM 1

CPU

QPILC

DIMM 2

Channel F

QPILC

DIMM 3

Channel C

Channel E

IMC

RAM
RAM
RAM
RAM

RAM
RAM
RAM
RAM

RAM
RAM

Channel B

RAM

Channel A

RAM

内存访问带宽充足

DIMM 1

DIMM 2

DIMM 3

单条内存带宽

1333 1333
Mbps Mbps

1DIMM/ch

2 DIMM/ch

800
Mbps

800 800
Mbps Mbps

3DIMM/ch

单通道内存带宽

单通道，1 DIMM，1600内存，
带宽：25.6GB/s
• 单通道，3 DIMM，800内存，
带宽：12.8GB/s
• 单CPU，4通道内存带宽：
51.2GB/s
• 单服务器，2CPU NUMA内存
带宽：102.4GB/s
多通道的内存控制能提供足够的
内存带宽
•

Source: Samsung DDR4 SDRAM brochure,2013.6

1600
Mbps


内存访问延迟严重
Phys. Virt.

TLB

Core
L1 cache

Phys. Virt.

CPU

TLB

L2 cache

Core
L1 cache
L2 cache

L1 D Cache
(clk)

顺序访问
页内随机访问
完全随机访问

L3 cache

4 clk
4 clk
4 clk

L2 Cache
(clk)

L3 Cache
(clk)

11 clk 14 clk
11 clk 18 clk
11 clk 38 clk

Memory
(clk)

16.2 clk
59.4 clk
178 clk

Intel E5-2697,2.7Ghz, 内存访问延迟

NUMA RAM

Intel E5-2697内存访问结构

过去30年内，内存访问带宽增速比访
问延迟高200倍
• 低访问延迟可以提升访问带宽
• 高访问带宽无法降低访问延迟
• 访问延迟受硬件制成cache命中率，TLB
命中率等影响
内存访问延时很大，形成内存墙问题
•

内存墙问题，始自1994年


数据中心网络部署



按照数据中心普遍铺设10G网络计算，节点与节
点之间的最大数据传输带宽为1.2GB/S

10

Amdahl’s Law:平衡系统定理
• Amdahl’s Law:平衡的系统需配备1 CPU周期1
bit的I/O带宽
•

以磁盘为数据存储媒介，
系统瓶颈在于磁盘I/O

•

集中式环境下，以内存为
数据存储媒介，系统瓶颈
在于内存

•

CPU

4clk/bit
NUMA RAM

内存集群计算的瓶颈在于通讯，
但Hadoop的瓶颈在于磁盘

13clk/bit

Ethernet

27clk/bit

分布式环境下，以内存为
数据存储媒介，系统瓶颈
在于网络

CPU

RAID

NUMA RAM

Ethernet

RAID

2× Intel E5-2697 处理器（2.7Ghz，12核，24线程），
24 ×32GB RAM（1600），10×72k disk，10GB
Ethernet


通讯墙问题
• 通讯墙（Communication Wall）:内存集群计
算环境下，通讯成为整个系统的瓶颈
• 设单个节点：2处理器，12核，
24超线程， 768GB内存，10G 以太
网

– 拥有的内存访问带宽
102.4GB/S
– 拥有网络带宽1.2GB/S
– 拥有处理资源48核

• 数据处理选择率>1.2%时

Communication Wall

CPU

CPU

Memory

Memory

Node

Node

– 网络传输成为瓶颈

13

通讯瓶颈实验
数据访问性能比较

数据记录大小影响
数据获取性能

硬件: 2CPUs, 16GB Memory,
Ethernet

1G bps

数据表: 4GB 表文件，包含可变长度的记
录，存储于本地磁盘和远端内存

Disk I/O Bottleneck: Vulnerable to the
random disk access

随机磁盘数据性能
干扰很大

Memory Wall: Vulnerable to the data
placement in the memory (partly because
of the length of the record)
Communication Wall: Limited network
bandwidth comparing to tremendous
large data movement in the cluster.


通讯墙对并行度的影响
• Amdahl’s Law:并行系统性能提升率（Soverall），
由不可并行因子（1-F）和可并行因子（F）
的并行度（Sopt）决定：

nodes

启动时间

处理时间

0

内存集群系统
任务启动时间
数据处理时间

Time

Hadoop系统

》

任务启动时间
数据处理时间

其他不可并行因子：数据倾斜，处理干扰具
有相类似的作用
内存集群系统与磁盘集群系统相比具有更低
的可扩展度，为此数据布局方面，针对不同
大小的数据集采用不同的并行度。

多任务启动时间开销

通讯墙对索引的影响
在内存中扫描64MB数据块仅需50-100ms
获取数据的起始时间段内性能较为不稳定
现有CPU缓存较大，索引访问可获得较高的稳定速度
结论：访问起始时间段内，较高选择率时，索引依然适用；对于需多遍访问数
据的操作符，索引有效；集群环境下，每个参与处理节点，需要分配较多操作
符，以降低中间结果数量
与选择率50%的顺序
扫描对比，索引性
能依然更高
集群环境下，索引
性能受限于网络

单机索引与顺序扫描性能对比，4GB文件

多机远程索引数据获取性能


通讯墙对执行引擎的影响

流水线并行中嵌入分块并行

分块并行中嵌入流水线并行

Aggregation
Aggregat
ion

Reduce

Exchange

Filter

Filter

Map

Map

Filter

Filter

Join

Join

Node

Node

Partitioned

Synchronization
Join

Join

Reduce

Reduce
Exchange

Filter

Filter

Filter
Filter

Map

SCAN

Map

SCAN

Map

Filter

SCAN

SCAN

SCAN

Node

SCAN

Filter

Node

Node

Partitioned

e.g., Tendem, SQL Server, Gamma, Spark
e.g., Volcano, SCOPE, DYRAD，CLAIMS

•
•

全局分块并行系统，如Hadoop，Spark，Shark等系统，在数据传输前需等待
全局流水线并行系统，如Volcano，SCOPE，DYRAD，CLAIMS，

通讯墙对查询优化的影响
• 任务执行节点的选择和组合，影响数据传输量
• 流水线式并行处理，数据传输具有时效性
与传统查询优化相比，需要动态的优化策略；
与MapReduce优化相比，需要优化Reduce端的数据局部性


CLAIMS简介
• CLAIMS：CLuster-Aware In-Memory
System for high performance data
analysis
• 应用目标：OLAP型应用，类似于Teradata
• 数据类型：关系型数据为主，可以扩展到
非结构化数据
• 数据存储：按列存储
• 优化目标：解决通讯墙问题

20

CLAIMS的定位
• CLAIMS与Shark(Spark)，Hive(Hadoop)在同一层次上
• 应用目标：对接现有MySQL客户端，R统计分析包，报
表软件
• 性能目标：对海量关系型数据实现实时分析
• 数据来源：1.操作数据库系统的关系型数据
2. 抽取自非结构化数据
SQL
Client

R
Package

Report

Application
SQL

HANA

Teradata

CLAIMS

Shark

Hive

Spark

Hadoop
MR

HDFS

HDFS

对非结构化数据的支持
• 底层存储采用HDFS
–
–
–
–

现有大量的数据存储于HDFS之中
希望能融入Hadoop生态圈
简化多类源数据的融合问题
数据抽取：实现HDFS非结构到内存关系数据转换
Memory Data

Load

Input

State

Load

Input

Load

Input

State

Extractor

Input

State

State

Schema

Open
Next
Close

Open
Next
Close

Input

State

Schema

Schema

Extractor

Memory Data

Memory Data

Open
Next
Close

Extractor

Distributed File System (e.g., HDFS)


Input

State

系统架构
•
•
•

硬件: 面向高性能集群，通过高速网络互连. 每个节点拥有多个处理器和大容量内存.
架构: Master/Slave结构，由无共享节点组成的集群
优点：高可扩展性、高性能、解决通讯墙问题
Master

SQL

Data Flow
Control Flow
Scheduler

Query Parser
Optimization

Clients

Resource Manager
Data Exchanger

Program

Operator Expander

Results

Slave
Memory Data

Slave
Memory Data

Slave
Memory Data

Slave
Memory Data

Distributed File System (e.g., HDFS)


Slave
Memory Data

性能对比实验
• 数据集
– 证交所交易数据
• 1天（5GB数据），
• 1周（40GB数据）
• 1月（90GB数据）

• 查询
– 证交所分析查询

• 集群
– 10 × HP DL388P，2 × 4核
CPU，16GB，5 × 1TB磁盘，
1GB以太网

任务启动时间


性能对比（1）

数据导入磁盘速度

数据导入内存速度


性能对比（2）

Filter操作时间

Join操作时间
Shark在40GB,90GB数据集上未能完成


性能对比（3）

Aggregation时间对比


真实查询性能对比

性能提升原因分析
• 采用C++编码，实现有效内
存控制，包括布局、回收、
替换
• 实现非一致内存访问
（NUMA）优化，
• 通过Data Exchange操作符，
实现仅需求数据传输
• 通过Operator Expander操作
符，实现操作符扩展，以充
分利用网络带宽
• 数据传输、数据局部性的全
局优化
• 索引支持（hash索引）
分块并行


28

时间表
内存集群计算组成员：
周傲英，周敏奇，王立（博士生），董少婵（硕士生，
女），顾伶（硕，女），李永峰（硕），张磊（硕），张
新洲（硕）。

系统开发时间表：
2012年9月-11月，
需求分析
2012年11月-13年3月，系统架构设计
2013年3月-11月，
系统主体开发完成
2013年12月-14年4月，代码整理，文档整理，工具开发
2014年4月-5月，
第一个开源版本发布


结论

• 内存集群计算是应用需求和硬件发展的必
然趋势
• 通讯墙问题成为内存集群计算的主要瓶颈
– 内存集群系统的可扩展性比磁盘集群系统差
– 流水线式并行处理可有效利用带宽
– 动态查询优化可有效解决通讯墙问题

• CLAISMS系统在实时处理数据分析方面已获
得较高性能
– 希望大家多多支持国货。


周敏奇：Cliaims—集群感知的内存计算系统

Recommended

Recommended

More Related Content

Similar to 周敏奇：Cliaims—集群感知的内存计算系统

Similar to 周敏奇：Cliaims—集群感知的内存计算系统 (20)

More from hdhappy001

More from hdhappy001 (20)

周敏奇：Cliaims—集群感知的内存计算系统