More Related Content
Similar to A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕組みと利用方法 by Aiichiro Noma (20)
More from Insight Technology, Inc. (20)
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕組みと利用方法 by Aiichiro Noma
- 1. © 2013 IBM Corporation
DB2 BLU Acceleration のご紹介
日本アイ・ビー・エム株式会社
インフォメーション・マネジメント事業部
- 2. © 2013 IBM Corporation
db tech showcase 大阪 2013
2
データベース拡大の背景と課題
業務アプリケーション
BIレポートとアナリティクス
ビジネス・ユーザー、コールセンタ
ー
オンライン・クエリーなど
基幹DB
データ量の
増加
・グルーバル化
・経営の高度化
・M&Aや企業間連携の増加
・法規制などへの対応
- 3. © 2013 IBM Corporation
db tech showcase 大阪 2013
3
アナリティクスとオペレーショナル・データの管理が必要
業務アプリケーション
更新・ロード・分析
同時実行される
トランザクション
BIレポートとアナリティクス
数百件から数千件の読み取り・更新クエリ
ー
ビジネス・ユーザー、コールセンター、オンライン・クエリーなど
基幹DB
DWH
DM
OLTP処理によるリアルタイム・データに基づく、
レポーティング・アナリティクスのニーズ
- 4. © 2013 IBM Corporation
db tech showcase 大阪 2013
4
スケーラブルな
トランザクション・データベース
分析データウェアハウス オペレーショナル
データウェアハウス
PureData
ワークロードに対する最適なデータベース・システム
トランザクション処理 レポートと分析 オペレーショナル分析
System for
Transactions
System for Analytics System for
Operational Analytics
多くのトランザクションが
狭いデータ範囲で同じデータ
ベースにアクセス
広いデータ範囲を用いた分析
で、複数のデータ・パーティシ
ョンにわたる多数のパーツに
分割して並行実行
多数のパーツに分割された分
析および狭い範囲の運用、
すべて並行実行
- 5. © 2013 IBM Corporation
db tech showcase 大阪 2013
5
データ量の
増加
既存システムのほとんどはビッグデータ予備軍
データー
プラットフォーム
新たなマート
の作成
ロード用の
ETLシステム
バッチ処理
管理コスト
基幹DB
一気に解決するには周辺システムへの影響が大きい
データボリュームが大きくない
それぞれの課題に部分的に投資したい
- 6. © 2013 IBM Corporation
db tech showcase 大阪 2013
6
BLU 登場 (DB2 BLU Acceleration)
アナリティクス処理を加速させる、
データベース・ソリューション
• 従来よりも数倍から数十倍高速になる、
アナリティクス処理
• 表にデータを投入するだけですぐに利用可能
• 低コストで実装可能
• BLUの技術は他の製品にも展開予定
- 7. © 2013 IBM Corporation
db tech showcase 大阪 2013
7
BLU のベンチマーク結果
DB2 V10.1 との比較
A社 46.8x
B社 37.4x
C社 13.0x
D社 6.1x
E社 5.6x
約10倍から20倍の
パフォーマンス向上
「当社が使っている行テーブルのパフォーマンスと比較して、クエリーの大幅なスピード
アップが実現することに驚きました。当社が実行するクエリーのうち4件について、パ
フォーマンスが100倍以上改善したのです! パフォーマンスの改善が最も顕著だったのは、
BLUアクセラレーションによってあるクエリーの処理スピードが137倍になったことです」
- BNSF Railway、データベース・ソリューション・アーキテクト、Kent Collins氏
- 8. © 2013 IBM Corporation
db tech showcase 大阪 2013
8
どのような処理に向いているか
• データを集約する関数(SUM, AVG など)やGROUP BYを使用し
ているようなクエリーが抜群に速い
SELECT PRODUCT_DEPARTMENT, REGION,
SUM(REVENUE)
FROM FACT_SALES F
INNER JOIN DIM_PRODUCT P ON F.FKP = P.PK
INNER JOIN DIM_REGION R ON F.FKR = R.PK
LEFT OUTER JOIN DIM_TIME T ON F.FKT = T.PK
WHERE T.YEAR = 2009
AND R.GEOID = 17
AND P.TYPEID = 3
GROUP BY PRODUCT_DEPARTMENT, REGION
- 9. © 2013 IBM Corporation
db tech showcase 大阪 2013
9
大量データ分析処理を実現するためのキーワード
カラムナー
MPP(超並列)
圧縮
アプライアンス
I/Oコストを削減
並列処理による
処理分散
KIWI
- 10. © 2013 IBM Corporation
db tech showcase 大阪 2013
10
大量データ処理において有効なDB2の機能
およびチューニング手法
MDC(多次元クラスタリング)
データをブロック化
(同様のデータは物理
的にまとめて格納)
データ圧縮
バッファープールを拡大
メモリに展開する事で
ストレージI/Oを削減
テーブル・パーティション
データベース内並列処理
データベース・パーティション
(Database partition Feature)
I/Oコストを削減
並列処理による
処理分散
KIWI
- 11. © 2013 IBM Corporation
db tech showcase 大阪 2013
11
高速分析処理を実現するテクノロジー
• 列ストア・圧縮
• SIMD演算
• 並列処理
• メモリー・キャッシング
• データ・スキッピング
DB2 BLU Acceleration
- 12. © 2013 IBM Corporation
db tech showcase 大阪 2013
12
BLUはなぜ高速なのか?
- 13. © 2013 IBM Corporation
db tech showcase 大阪 2013
13
① 縦持ちだから速い (列ストア)
汎用RDBMSでの行ストア
列ストア型
参照処理における不要データの
読み込みをなくし、ディスクI/Oの
回数を削減
カラム内には特定のデータが繰り
返し現れることが多いので、圧縮
効率が良い
ID 商品名 価格 サイズ 発売日
1001 商品A 1000 L 2013-01-20
1002 商品B 2000 XS 2010-07-07
1003 商品C 1500 M 2012-10-31
1004 商品D 3000 S 2013-04-11
ID
1001
1002
1003
1004
商品名
商品A
商品B
商品C
商品D
価格
1000
2000
1500
3000
サイズ
L
XS
M
S
発売日
2013-01-20
2010-07-07
2012-10-31
2013-04-11
関係のない行まで読み込んでし
まう
一つのブロックに様々なタイプの
データが格納されている
- 14. © 2013 IBM Corporation
db tech showcase 大阪 2013
14
レジスター格納で列ストアを最適化
• 複数の列をグルーピングして格納
• データは圧縮され、レジスター互換幅以内の長さで格納される
複数のデータを128ビットのレジスターにまとめることで、単一イ
ンストラクションで複数のデータを処理することが可能となる
• レジスター格納は列ストアを最適化し、CPU演算に適している
Smith
Smith
Smith
Smith
Smith
Johnson
Johnson
LAST_NAME エンコード 値をレジスター長に割り当てる
レジスター長
レジスター長
- 15. © 2013 IBM Corporation
db tech showcase 大阪 2013
15
DB2 with BLU Accel.DB2 with BLU Accel.
BLU のデータ圧縮効率
- 16. © 2013 IBM Corporation
db tech showcase 大阪 2013
16
② まとめて処理するから速い
1つの処理を4回繰り返す 1回の命令で4個の結果を求められる
X(0) Y(0) Z(0)+ =
X(1) Y(1) Z(1)+ =
X(2) Y(2) Z(2)+ =
X(3) Y(3) Z(3)+ =
X(0) Y(0) Z(0)
X(1) Y(1) Z(1)
X(2) Y(2) Z(2)
+ =
X(3) Y(3) Z(3)
(1) 通常の演算 (2) SIMD 演算
• SIMD(Single Instruction Multiple Data)演算(CPUチップセット
の演算関数を利用)を利用し、複数の処理をまとめて実行
• さらに、複数のCPUを並列に利用
- 17. © 2013 IBM Corporation
db tech showcase 大阪 2013
17
SIMDベースの処理を行わない場合は、CPUは各命令を各データ要素に対し
て適用する
• ハードウェア命令を使用することによって、1つの命令を同時に複
数のデータ要素に対して適用することができる
– 述部の検証、データの結合、データのグループ化、データの四則計算など
Compare
= 2005
Compare
= 2005
Compare
= 2005
2001
命令
結果ストリーム
データ
2002 2003 2004
2005
2005 2006 2007 20082009 2010 2011 2012
CPUCompare
= 2005
2001
命令
結果ストリーム
データ
200220032004200520062007
Compare
= 2005
Compare
= 2005
Compare
= 2005
Compare
= 2005
Compare
= 2005
Compare
= 2005 2005
CPU
CPUの能力を最大限に高める
- 18. © 2013 IBM Corporation
db tech showcase 大阪 2013
18
③ 並列処理するから速い
• サーバーのCPU数をフルに活用し処理を行う
– BLUアクセラレーション・テーブルに対してクエリーを実行する際には、当
該クエリーは自動的に並列処理が適用される
- 19. © 2013 IBM Corporation
db tech showcase 大阪 2013
19
④ メモリー・キャッシングによるスキャン最適化
• 最新のアルゴリズムにより、RAM内で効果的にキャッシングを
行う
• より多くのニーズに合致するデータがメモリー内に存在する
– クエリーのニーズに合致するデータを最新のアルゴリズムに基づいてイ
ンメモリーで処理する
• データの容量がRAMの容量より大きくなる場合も問題ない
– 全てのデータがメモリー内に存在する必要はない
– インメモリーとI/Oの処理効率を最適化する
RAM
ディスク
最適なキャッシングを実現
- 20. © 2013 IBM Corporation
db tech showcase 大阪 2013
20
⑤ データ・スキッピング
• クエリーに適合しないデータを自働
的にスキップ
• I/O処理、RAMの容量、およびCPU
の数を大幅に削減可能
• DBAによるアクションを定義・実施
する必要がなく、最適化機能が自動
的に実行される
…
…
…
…
…
…
…
データ・スキッピングのイメージ
- 21. © 2013 IBM Corporation
db tech showcase 大阪 2013
21
DATA
DATA
DATA
DATA
DATA
DATA
DATA
DATA
DATA
10TB データ
DATA
圧縮して 1/10
1TB
DATA
処理を32コアに分割
32MB/コアあたり
SIMD演算
DATA
10TB の処理を数秒で完了
DB2
BLU
ACCELERATION
1/100 列の選択
10GB
1/10年の選択
データ・スキッピン
グ1GB
BLU Acceleration の処理フロー
• 10TB のデータ(10年)のテーブル(100列)を
32コアのマシンで処理する例
• SELECT COUNT(*) from MYTABLE where YEAR = '2010'
- 22. © 2013 IBM Corporation
db tech showcase 大阪 2013
22
CREATE TABLE -> LOAD
- 23. © 2013 IBM Corporation
db tech showcase 大阪 2013
23
DB2 with BLU Design and Tuning
• Create Table
• Load data
データベース設計およびチューニング
• パーティションの利用検討
• 圧縮機能の利用検討
• 表の作成
• データのロード
• チューニング
• サマリー表の作成
• 索引の作成
• メモリーチューニング
• ヒント句の利用
一般的なデータベース・チューニングの流れ
Repeat
集計項目、分析の軸が変更になった場合は
再度チューニングが必要
- 24. © 2013 IBM Corporation
db tech showcase 大阪 2013
24
DB2 BLU Design and Tuning
• Create Table
• Load data
表にデータをロードするのみ
CREATE TABLE T1 ( C1 int, C2 char(200)) ORGANIZED BY COLUMN
これだけ
索引や
サマリー表も
必要ない
アプライアンスに置き換える。ではなく、
汎用のRDBMSであるDB2の中で利用出来る
- 25. © 2013 IBM Corporation
db tech showcase 大阪 2013
25
表にデータをロードするのみ
• データをロードすれば、すぐにクエリーを開始することができる
– インデックスが不要
– REORGが不要(自動的に実行される)
– RUNSTATSが不要(自動的に実行される)
– チューニング不要
• MDCの検討
• MQTやマテリアライズド・ビューの検討
• パーティショニングの検討
• DB2の機能を活用可能
– 同じSQL、言語インターフェース、管理機能を活用
– DB2のプロセス、モデル、ストレージ、ユーティリティーを再利用可能
- 26. © 2013 IBM Corporation
db tech showcase 大阪 2013
26
表名 データ件数
CUSTOMER 3,000,000
DATES 2,556
PART 1,400,000
SUPPLIER 200,000
LINEORDER 600,038,145
DB2 V10.5 / AIX 7.1
POWER 7 : 3.7GHz x 8core
64 GB Memory
TPC-H で利用されるオブジェクトとデータを利用して
シンプルな集計処理の4つのクエリ(1~4)を作成し、
4つのクエリそれぞれに対し、照会範囲を変化させる
NonBLUは通常表に対し、索引、圧縮、MDC(多次元クラス
タリング)のチューニングを実施
条件がばらついても、コンス
タントに速いBLU ( 平均5秒)
照会の軸、範囲が急遽変更
になってもNon Tuningで対
応可能
- 27. © 2013 IBM Corporation
db tech showcase 大阪 2013
27
行x列 ハイブリッド
- 28. © 2013 IBM Corporation
db tech showcase 大阪 2013
28
DB2は行ストアと列ストアが共存できる
• ランダムアクセスは非効率
• OLTPには向かない
DB2はハイブリッド
DB2は混在可能
行ストア表と列ストア表をJOIN
出来る
列ストア型
ID
1001
1002
1003
1004
商品名
商品A
商品B
商品C
商品D
価格
1000
2000
1500
3000
サイズ
L
XS
M
S
発売日
2013-01-20
2010-07-07
2012-10-31
2013-04-11
- 29. © 2013 IBM Corporation
db tech showcase 大阪 2013
29
2010年 2011年 2012年 2013年
新しいデータ古いデータ
更新も多いので
これまでの行ストア
更新はなく、過去データ
なので集計・分析が多い
ので列ストア
2010年 2011年 2012年 2013年
列ストア表スペース
HDD
行ストア表スペース
SSD
表を分ける
データ特性
に応じたスト
レージ配置
ハイブリッドのメリット
動的に移動
- 30. © 2013 IBM Corporation
db tech showcase 大阪 2013
30
Cognos BI
BLUアクセラレーションを実現
マルチ・プラットフォーム・
ソフトウェア
アナリティクスの
データ・マート
(BLUテーブル)
他社のパフォーマンスの
落ちたデータウェアハウス
Cognos BI
BLUアクセラレーションを実現
EDWアプリケーション OLAPアプリケーション
BLUアクセラレーションで構築
された高速なデータ・マートを簡
単に作成・ロードする
活用シナリオ: エンタープライズ・データウェアハウスをア
ンロードすることによって、データ・マートの処理を高速化
- 31. © 2013 IBM Corporation
db tech showcase 大阪 2013
31
マルチ・プラットフォーム・
ソフトウェア
ERPやその他の
トランザクション・
システム
トランザクション・
データベース
アナリティクスの
データ・マート
(BLUテーブル)
業務部門が使用する
アナリティクスのデータ・マート
トランザクション・データベースから
アナリティクスのデータ・マートへの移行
BLUアクセラレーションで構築
された高速なデータ・マートを簡
単に作成・ロードする
- 32. © 2013 IBM Corporation
db tech showcase 大阪 2013
32
BNSF Railwayがクエリーの処理を高速化し、管理
業務を削減
「従来の行形式のテーブルのパフォーマンスとDB2の列形式のテーブルのパフォー
マンスを比べると、BLUアクセラレーションを活用することによって、当社の分析クエ
リーのスピードは平均で74倍改善しました 」
- BNSF Railway、データ・ソリューション・アーキテクト、Kent Collins氏
“Using DB2 10.5 with BLU Acceleration, our storage consumption went
down by about 10x compared to our storage requirements for uncompressed
tables and indexes. In fact, I was surprised to find a 3x increase in storage
savings compared to the great compression that we already observed with
Adaptive Compression on the DB2 10.5 server.”
“Using DB2 10.5 with BLU Acceleration, our storage consumption went
down by about 10x compared to our storage requirements for uncompressed
tables and indexes. In fact, I was surprised to find a 3x increase in storage
savings compared to the great compression that we already observed with
Adaptive Compression on the DB2 10.5 server.”
“Using DB2 10.5 with BLU Acceleration, our storage consumption went
down by about 10x compared to our storage requirements for uncompressed
tables and indexes. In fact, I was surprised to find a 3x increase in storage
savings compared to the great compression that we already observed with
Adaptive Compression on the DB2 10.5 server.”
「非常に感銘を受けたのは、DB2 10.5が提供するBLU アクセラレーションによって、
テーブル・データのインデックスの作成やデータの集計を一切行うことなくパフォーマ
ンスを大幅に改善できたことです。当社のワークロードの設計とチューニングを行う
際に、リードタイムを大きく短縮できます」
- BNSF Railway、データ・ソリューション・アーキテクト、Kent Collins氏
- 33. © 2013 IBM Corporation
db tech showcase 大阪 2013
33
CCBCが大幅にストレージ容量を削減し、パフォー
マンスを改善
“BLUアクセラレーションによってテーブルのサイズを 10分の1にすることができま
した。しかも、インデックスの作成やデータの集計を行うことなく、パーティショニン
グを行う必要もありません。当社のさまざまな種類のテーブルが混在する環境で
は、テーブル・サイズの削減効果は10分の1から25分の1になります」
- SAP Basis担当およびDBA、Andrew Juarez氏
「当社のスキーマのうちの1つをDB2 10.5によるBLUアクセラレーション・
ベースのテーブルに変換すると、分析クエリーの処理スピードが4倍から
15倍改善しました」
- SAP Basis担当およびDBA、Andrew Juarez氏
- 34. © 2013 IBM Corporation
db tech showcase 大阪 2013
34
DB2 BLU Acceleration
34
ストレージ
C1 C2 C3 C4 C5 C6 C7 C8C1 C2 C3 C4 C5 C6 C7 C8
圧縮とエンコードが
行われた列テーブル
C1 C2 C3 C4 C5 C6 C7 C8C1 C2 C3 C4 C5 C6 C7 C8
従来の行形式の
テーブル
SIMD機能を備えたCPU
BLUアクセラレーションを
実装したデータベース
BLU DMS
(BLUテーブル用)
ランタイム
従来の
DB2ランタイム
BLU
ランタイム
従来のDB2バッファープール
従来のDMS
(非BLUテーブル用)
• 列ストア
• プロセッサに適応した並列処理
• ハイブリッド型データベース
- 35. © 2013 IBM Corporation
db tech showcase 大阪 2013
35
複数のワークロードを処理する
ソフトウエア・ソリューションBLU Acceleration
DB2® 10.5
トランザクションの可用性を恒常的に高めることが可能
99.999%の可用性を達成し、最大数千キロメートル内で災害復旧を実現すること
によって、ダウンタイムを最小化
アナリティクスの高速化
インメモリーのみで処理を行うことによるコストや制限を発生させることなく、インメ
モリーのハイブリッド・データベースの処理スピードを25倍改善
システムの取得コストを大きく削減
Oracle Databaseアプリケーションとの互換性を99%以上に保ったうえで、Oracle
に比べて取得コストが3分の1以下
将来にわたって有効な情報インフラを実現
NoSQLとIBM Mobile Databaseを活用
DB2 10.5は、より大量のデータをより迅速に
処理・分析するためのスマートなアプローチを提供
- 36. © 2013 IBM Corporation
db tech showcase 大阪 2013
36
ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目
的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありませ
ん。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかな
る保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責
任を負わないものとします。 本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすこ
とを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むもので
もありません。
本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するも
のではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつで
も変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含ま
れている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したもので
も、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいて
います。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレー
ジ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと
同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたもの
です。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。
IBM、IBM ロゴ、ibm.com、DB2、およびPureDataは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。
他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。
現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。