7. 7
ODPi Interoperable Solutions
ODPi is a nonprofit organization committed to simplification & standardization of the
big data ecosystem.
As a shared industry effort , ODPi is focused on promoting and advancing the state of Apache Hadoop® and big data
technologies for the enterprise. See https://www.odpi.org/ for more details.
7
Open Data Platform initiative
(ODPi) は
ディストリビューションの標準化と,
Hadoop エコシステムの発展を促進
Big SQL v4.2 はODPi での運用が可
能であり,
IBM と HortonWorks
のHadoop ディストリビューション
で動作.
ODPi: ディストリビューション間での相互運用性
ODPi Runtime Compliant Platforms
ODPi Runtime Specification
HDFS YARN MapReduce
Hive HCFS
Big SQL
(IBM)
17. 17
Big SQL Concurrency Testing
at Major North American Telecom
0
100
200
300
400
500
600
700
800
900
1 2 3 4 5 6 7
Seconds
Query
User 1
User 2
User 3
User 4
User 5
Query User 1 User 2 User 3 User 4 User 5
1 62.9 39.3 36.2 49.8 48.3
2 379.9 395.4 253.6 372 378.4
3 776.2 768 587.4 773.2 778.3
4 10.8 12 10.7 26.8 10
5 30.7 35.8 29.8 47.5 57.2
6 8.3 8.9 8.8 10 9.5
7 30.1 35.7 27.6 39.1 40.7
Consistent response
times as number of
users grows
18. 18
0
50
100
150
200
250
0 20 40 60 80 100 120
Throughput(Queries/Hour)
Number of Users
Number of Users vs. Throughput
0
2,000
4,000
6,000
8,000
10,000
12,000
14,000
0 50 100 150
TestTime(sec)
Number of Users
Number of Users vs. Test
Time
o Workload throughput peaks at about 10
concurrent users and is consistent for even 100
concurrent users
o Big SQL default workload management (WLM)
ensures memory is not used up, so throughput
does not decrease
o Test time gets proportionally longer after 10
users, as expected
o The test time does not get exponentially
longer with 100 users
Big SQL Workload Throughput for Concurrent Users
at Major North American Telecom
20. 20
Role Based Access
Control
Row Level Security
Colum Level
Security
Separation of Duties
/ Audit
Apache Rangerは中央集約型のア
クセスコントロールやログ取得を行
うセキュリティフレームワーク.
Big SQLは現状Rangerとは連携し
ていない. ただし, Hiveではでき
ないセキュリティ機能を提供
Big SQLの提供するセキュリティ
GRANT / REVOKE
列・行レベルマスク
SQLによる設定
セキュリティ
Security models vary across the vendors
BRANCH
_A
BRANCH
_B
FINANCE
See it in action on YouTube:
https://www.youtube.com/watch?v=N2F
N5h25-_s
22. 22
データベースフェデレーション
データウェアハウスは1つのDBに限らない
様々なデータソースに分散しているデータにアクセス
• 他システムのデータへのアクセスし
• ソースデータを持っているシステムからデータを取得
Big SQL
Common Query
Compiler/Optimizer
Read & Scan
Optimized
Federation
Oracle
SQL
Server
Teradata
DB2
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
ANSI SQL 2003/2011+
Hive
Storage
Hive
metastore
23. 23
BigSQLとSparkのインテグレーション
Integration is Technology Preview (Big SQL v4.2)
Big SQL
Common Query
Compiler/Optimizer
Spark
Read & Scan
Optimized
Read and
In-Memory Analytics
Optimized
Federation
Oracle
SQL
Server
Teradata
DB2
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
ANSI SQL 2003/2011+
Hive
Storage
Hive
metastore
Sparkはデータアナリストやデータサイエンティストが利用するインメモリアー
キテクチャ
SparkとHadoopのDWHとの相互利用は重要
24. 24 HDFS
Big SQL Head Node
Spark Exec.
Big SQL
Worker
Spark Exec.
Big SQL
Worker
Spark Exec.
Big SQL
Worker
Spark Exec.
Big SQL
Worker
= Fast data transfer over
shared memory
Big SQL は Spark インメモリ実行エンジン:
Integration is Technology Preview (Big SQL v4.2)
Big SQLのHead NodeがSparkを起動
Spark executors が Big SQL workersと協調動作
それぞれの実行プロセスが共有メモリを通じて協調動作