9. 他のデータベースとのCPU命令数の比較
1
9 7
29
102
68
0
20
40
60
80
100
120
0.0E+00
5.0E+11
1.0E+12
1.5E+12
2.0E+12
2.5E+12
3.0E+12
Columnar DB A Columnar DB B
In Memory DB
A
Rt=Instructions / (IPC * Hz * Parallelism)
Row Store DB A Row Store DB B
CPU
Instructions
Vectorとの
比較(倍)
昨年のdb tech showcase 2014 “Actian Vectorで得られるBIにおける真のパフォーマンスとは”より抜粋
http://www.slideshare.net/kshinkub/db-tech-showcase2014a14actian-vectorbi-36004866
select
sum(l_extendedprice * l_discount) as revenue
from
lineitem ← (80GB , 6億件)
where
l_shipdate >= date '1996-01-01'
and l_shipdate < date '1996-01-01' + interval '1' year
and l_discount between 0.02 - 0.01 and 0.02 + 0.01
and l_quantity < 24
12. Vector Hadoop SQL Editionの構成
HDFS
Name Node Data Node Data Node Data Node
YARN
SQL on
Hadoop
Engine
MapReduce Tez Spark … 3rd パーティー
HDFS
Name Node Data Node Data Node Data Node
YARN
3rd パーティー
Vector Hadoop SQL Editionの場合、YARNは必須ではない
13. Vector Hadoop SQL Editionの構成(各ノードズーム)
HDFS
Name Node Data Node Data Node Data Node
Vector-H
master
Vector-H
Worker(x100)
Vector-H
Worker(x100)
Vector-H
Worker(x100)
HDFS I/O APIHDFS I/O API
JDBC/ODBC
All to All MPI (Infiniband ready)
Ethernet
18. データブロックのローカリティを確保する戦略①
① HDFSへのI/O性能は大丈夫か?
HDFSのデータのローカリティを確保できるのか?
HASHパーティション・テーブル カスタム Block Placement
- Table A Hash #1
- Table B Hash #1
- Table A Hash #2
- Table B Hash #2
- Table A Hash #3
- Table B Hash #3
例)
Partition数=4
HDFS Replication Factor=2
A #1 A #1A #2 A #2A #3
Node #1 Node #2 Node #3
- Table A Hash #4
- Table B Hash #4
A #3
Node #4
A #4A #4
B #1 B #1B #2B #3 B #3B #4 B #4B #2