• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕組みと利用方法 by Aiichiro Noma
 

A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕組みと利用方法 by Aiichiro Noma

on

  • 771 views

 

Statistics

Views

Total Views
771
Views on SlideShare
771
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕組みと利用方法 by Aiichiro Noma A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕組みと利用方法 by Aiichiro Noma Presentation Transcript

    • © 2013 IBM Corporation DB2 BLU Acceleration のご紹介 日本アイ・ビー・エム株式会社 インフォメーション・マネジメント事業部
    • © 2013 IBM Corporation db tech showcase 大阪 2013 2 データベース拡大の背景と課題 業務アプリケーション BIレポートとアナリティクス ビジネス・ユーザー、コールセンタ ー オンライン・クエリーなど 基幹DB データ量の 増加 ・グルーバル化 ・経営の高度化 ・M&Aや企業間連携の増加 ・法規制などへの対応
    • © 2013 IBM Corporation db tech showcase 大阪 2013 3 アナリティクスとオペレーショナル・データの管理が必要 業務アプリケーション 更新・ロード・分析 同時実行される トランザクション BIレポートとアナリティクス 数百件から数千件の読み取り・更新クエリ ー ビジネス・ユーザー、コールセンター、オンライン・クエリーなど 基幹DB DWH DM OLTP処理によるリアルタイム・データに基づく、 レポーティング・アナリティクスのニーズ
    • © 2013 IBM Corporation db tech showcase 大阪 2013 4 スケーラブルな トランザクション・データベース 分析データウェアハウス オペレーショナル データウェアハウス PureData ワークロードに対する最適なデータベース・システム トランザクション処理 レポートと分析 オペレーショナル分析 System for Transactions System for Analytics System for Operational Analytics 多くのトランザクションが 狭いデータ範囲で同じデータ ベースにアクセス 広いデータ範囲を用いた分析 で、複数のデータ・パーティシ ョンにわたる多数のパーツに 分割して並行実行 多数のパーツに分割された分 析および狭い範囲の運用、 すべて並行実行
    • © 2013 IBM Corporation db tech showcase 大阪 2013 5 データ量の 増加 既存システムのほとんどはビッグデータ予備軍 データー プラットフォーム 新たなマート の作成 ロード用の ETLシステム バッチ処理 管理コスト 基幹DB 一気に解決するには周辺システムへの影響が大きい データボリュームが大きくない それぞれの課題に部分的に投資したい
    • © 2013 IBM Corporation db tech showcase 大阪 2013 6 BLU 登場 (DB2 BLU Acceleration) アナリティクス処理を加速させる、 データベース・ソリューション • 従来よりも数倍から数十倍高速になる、 アナリティクス処理 • 表にデータを投入するだけですぐに利用可能 • 低コストで実装可能 • BLUの技術は他の製品にも展開予定
    • © 2013 IBM Corporation db tech showcase 大阪 2013 7 BLU のベンチマーク結果 DB2 V10.1 との比較 A社 46.8x B社 37.4x C社 13.0x D社 6.1x E社 5.6x 約10倍から20倍の パフォーマンス向上 「当社が使っている行テーブルのパフォーマンスと比較して、クエリーの大幅なスピード アップが実現することに驚きました。当社が実行するクエリーのうち4件について、パ フォーマンスが100倍以上改善したのです! パフォーマンスの改善が最も顕著だったのは、 BLUアクセラレーションによってあるクエリーの処理スピードが137倍になったことです」 - BNSF Railway、データベース・ソリューション・アーキテクト、Kent Collins氏
    • © 2013 IBM Corporation db tech showcase 大阪 2013 8 どのような処理に向いているか • データを集約する関数(SUM, AVG など)やGROUP BYを使用し ているようなクエリーが抜群に速い SELECT PRODUCT_DEPARTMENT, REGION, SUM(REVENUE) FROM FACT_SALES F INNER JOIN DIM_PRODUCT P ON F.FKP = P.PK INNER JOIN DIM_REGION R ON F.FKR = R.PK LEFT OUTER JOIN DIM_TIME T ON F.FKT = T.PK WHERE T.YEAR = 2009 AND R.GEOID = 17 AND P.TYPEID = 3 GROUP BY PRODUCT_DEPARTMENT, REGION
    • © 2013 IBM Corporation db tech showcase 大阪 2013 9 大量データ分析処理を実現するためのキーワード カラムナー MPP(超並列) 圧縮 アプライアンス I/Oコストを削減 並列処理による 処理分散 KIWI
    • © 2013 IBM Corporation db tech showcase 大阪 2013 10 大量データ処理において有効なDB2の機能 およびチューニング手法 MDC(多次元クラスタリング) データをブロック化 (同様のデータは物理 的にまとめて格納) データ圧縮 バッファープールを拡大 メモリに展開する事で ストレージI/Oを削減 テーブル・パーティション データベース内並列処理 データベース・パーティション (Database partition Feature) I/Oコストを削減 並列処理による 処理分散 KIWI
    • © 2013 IBM Corporation db tech showcase 大阪 2013 11 高速分析処理を実現するテクノロジー • 列ストア・圧縮 • SIMD演算 • 並列処理 • メモリー・キャッシング • データ・スキッピング DB2 BLU Acceleration
    • © 2013 IBM Corporation db tech showcase 大阪 2013 12 BLUはなぜ高速なのか?
    • © 2013 IBM Corporation db tech showcase 大阪 2013 13 ① 縦持ちだから速い (列ストア) 汎用RDBMSでの行ストア 列ストア型  参照処理における不要データの 読み込みをなくし、ディスクI/Oの 回数を削減  カラム内には特定のデータが繰り 返し現れることが多いので、圧縮 効率が良い ID 商品名 価格 サイズ 発売日 1001 商品A 1000 L 2013-01-20 1002 商品B 2000 XS 2010-07-07 1003 商品C 1500 M 2012-10-31 1004 商品D 3000 S 2013-04-11 ID 1001 1002 1003 1004 商品名 商品A 商品B 商品C 商品D 価格 1000 2000 1500 3000 サイズ L XS M S 発売日 2013-01-20 2010-07-07 2012-10-31 2013-04-11  関係のない行まで読み込んでし まう  一つのブロックに様々なタイプの データが格納されている
    • © 2013 IBM Corporation db tech showcase 大阪 2013 14 レジスター格納で列ストアを最適化 • 複数の列をグルーピングして格納 • データは圧縮され、レジスター互換幅以内の長さで格納される 複数のデータを128ビットのレジスターにまとめることで、単一イ ンストラクションで複数のデータを処理することが可能となる • レジスター格納は列ストアを最適化し、CPU演算に適している Smith Smith Smith Smith Smith Johnson Johnson LAST_NAME エンコード 値をレジスター長に割り当てる レジスター長 レジスター長
    • © 2013 IBM Corporation db tech showcase 大阪 2013 15 DB2 with BLU Accel.DB2 with BLU Accel. BLU のデータ圧縮効率
    • © 2013 IBM Corporation db tech showcase 大阪 2013 16 ② まとめて処理するから速い 1つの処理を4回繰り返す 1回の命令で4個の結果を求められる X(0) Y(0) Z(0)+ = X(1) Y(1) Z(1)+ = X(2) Y(2) Z(2)+ = X(3) Y(3) Z(3)+ = X(0) Y(0) Z(0) X(1) Y(1) Z(1) X(2) Y(2) Z(2) + = X(3) Y(3) Z(3) (1) 通常の演算 (2) SIMD 演算 • SIMD(Single Instruction Multiple Data)演算(CPUチップセット の演算関数を利用)を利用し、複数の処理をまとめて実行 • さらに、複数のCPUを並列に利用
    • © 2013 IBM Corporation db tech showcase 大阪 2013 17  SIMDベースの処理を行わない場合は、CPUは各命令を各データ要素に対し て適用する • ハードウェア命令を使用することによって、1つの命令を同時に複 数のデータ要素に対して適用することができる – 述部の検証、データの結合、データのグループ化、データの四則計算など Compare = 2005 Compare = 2005 Compare = 2005 2001 命令 結果ストリーム データ 2002 2003 2004 2005 2005 2006 2007 20082009 2010 2011 2012 CPUCompare = 2005 2001 命令 結果ストリーム データ 200220032004200520062007 Compare = 2005 Compare = 2005 Compare = 2005 Compare = 2005 Compare = 2005 Compare = 2005 2005 CPU CPUの能力を最大限に高める
    • © 2013 IBM Corporation db tech showcase 大阪 2013 18 ③ 並列処理するから速い • サーバーのCPU数をフルに活用し処理を行う – BLUアクセラレーション・テーブルに対してクエリーを実行する際には、当 該クエリーは自動的に並列処理が適用される
    • © 2013 IBM Corporation db tech showcase 大阪 2013 19 ④ メモリー・キャッシングによるスキャン最適化 • 最新のアルゴリズムにより、RAM内で効果的にキャッシングを 行う • より多くのニーズに合致するデータがメモリー内に存在する – クエリーのニーズに合致するデータを最新のアルゴリズムに基づいてイ ンメモリーで処理する • データの容量がRAMの容量より大きくなる場合も問題ない – 全てのデータがメモリー内に存在する必要はない – インメモリーとI/Oの処理効率を最適化する RAM ディスク 最適なキャッシングを実現
    • © 2013 IBM Corporation db tech showcase 大阪 2013 20 ⑤ データ・スキッピング • クエリーに適合しないデータを自働 的にスキップ • I/O処理、RAMの容量、およびCPU の数を大幅に削減可能 • DBAによるアクションを定義・実施 する必要がなく、最適化機能が自動 的に実行される … … … … … … … データ・スキッピングのイメージ
    • © 2013 IBM Corporation db tech showcase 大阪 2013 21 DATA DATA DATA DATA DATA DATA DATA DATA DATA 10TB データ DATA 圧縮して 1/10 1TB DATA 処理を32コアに分割 32MB/コアあたり SIMD演算 DATA 10TB の処理を数秒で完了 DB2 BLU ACCELERATION 1/100 列の選択 10GB 1/10年の選択 データ・スキッピン グ1GB BLU Acceleration の処理フロー • 10TB のデータ(10年)のテーブル(100列)を 32コアのマシンで処理する例 • SELECT COUNT(*) from MYTABLE where YEAR = '2010'
    • © 2013 IBM Corporation db tech showcase 大阪 2013 22 CREATE TABLE -> LOAD
    • © 2013 IBM Corporation db tech showcase 大阪 2013 23 DB2 with BLU Design and Tuning • Create Table • Load data データベース設計およびチューニング • パーティションの利用検討 • 圧縮機能の利用検討 • 表の作成 • データのロード • チューニング • サマリー表の作成 • 索引の作成 • メモリーチューニング • ヒント句の利用 一般的なデータベース・チューニングの流れ Repeat 集計項目、分析の軸が変更になった場合は 再度チューニングが必要
    • © 2013 IBM Corporation db tech showcase 大阪 2013 24 DB2 BLU Design and Tuning • Create Table • Load data 表にデータをロードするのみ CREATE TABLE T1 ( C1 int, C2 char(200)) ORGANIZED BY COLUMN これだけ 索引や サマリー表も 必要ない アプライアンスに置き換える。ではなく、 汎用のRDBMSであるDB2の中で利用出来る
    • © 2013 IBM Corporation db tech showcase 大阪 2013 25 表にデータをロードするのみ • データをロードすれば、すぐにクエリーを開始することができる – インデックスが不要 – REORGが不要(自動的に実行される) – RUNSTATSが不要(自動的に実行される) – チューニング不要 • MDCの検討 • MQTやマテリアライズド・ビューの検討 • パーティショニングの検討 • DB2の機能を活用可能 – 同じSQL、言語インターフェース、管理機能を活用 – DB2のプロセス、モデル、ストレージ、ユーティリティーを再利用可能
    • © 2013 IBM Corporation db tech showcase 大阪 2013 26 表名 データ件数 CUSTOMER 3,000,000 DATES 2,556 PART 1,400,000 SUPPLIER 200,000 LINEORDER 600,038,145 DB2 V10.5 / AIX 7.1 POWER 7 : 3.7GHz x 8core 64 GB Memory TPC-H で利用されるオブジェクトとデータを利用して シンプルな集計処理の4つのクエリ(1~4)を作成し、 4つのクエリそれぞれに対し、照会範囲を変化させる NonBLUは通常表に対し、索引、圧縮、MDC(多次元クラス タリング)のチューニングを実施 条件がばらついても、コンス タントに速いBLU ( 平均5秒) 照会の軸、範囲が急遽変更 になってもNon Tuningで対 応可能
    • © 2013 IBM Corporation db tech showcase 大阪 2013 27 行x列 ハイブリッド
    • © 2013 IBM Corporation db tech showcase 大阪 2013 28 DB2は行ストアと列ストアが共存できる • ランダムアクセスは非効率 • OLTPには向かない DB2はハイブリッド  DB2は混在可能  行ストア表と列ストア表をJOIN 出来る 列ストア型 ID 1001 1002 1003 1004 商品名 商品A 商品B 商品C 商品D 価格 1000 2000 1500 3000 サイズ L XS M S 発売日 2013-01-20 2010-07-07 2012-10-31 2013-04-11
    • © 2013 IBM Corporation db tech showcase 大阪 2013 29 2010年 2011年 2012年 2013年 新しいデータ古いデータ 更新も多いので これまでの行ストア 更新はなく、過去データ なので集計・分析が多い ので列ストア 2010年 2011年 2012年 2013年 列ストア表スペース HDD 行ストア表スペース SSD 表を分ける データ特性 に応じたスト レージ配置 ハイブリッドのメリット 動的に移動
    • © 2013 IBM Corporation db tech showcase 大阪 2013 30 Cognos BI BLUアクセラレーションを実現 マルチ・プラットフォーム・ ソフトウェア アナリティクスの データ・マート (BLUテーブル) 他社のパフォーマンスの 落ちたデータウェアハウス Cognos BI BLUアクセラレーションを実現 EDWアプリケーション OLAPアプリケーション BLUアクセラレーションで構築 された高速なデータ・マートを簡 単に作成・ロードする 活用シナリオ: エンタープライズ・データウェアハウスをア ンロードすることによって、データ・マートの処理を高速化
    • © 2013 IBM Corporation db tech showcase 大阪 2013 31 マルチ・プラットフォーム・ ソフトウェア ERPやその他の トランザクション・ システム トランザクション・ データベース アナリティクスの データ・マート (BLUテーブル) 業務部門が使用する アナリティクスのデータ・マート トランザクション・データベースから アナリティクスのデータ・マートへの移行 BLUアクセラレーションで構築 された高速なデータ・マートを簡 単に作成・ロードする
    • © 2013 IBM Corporation db tech showcase 大阪 2013 32 BNSF Railwayがクエリーの処理を高速化し、管理 業務を削減 「従来の行形式のテーブルのパフォーマンスとDB2の列形式のテーブルのパフォー マンスを比べると、BLUアクセラレーションを活用することによって、当社の分析クエ リーのスピードは平均で74倍改善しました 」 - BNSF Railway、データ・ソリューション・アーキテクト、Kent Collins氏 “Using DB2 10.5 with BLU Acceleration, our storage consumption went down by about 10x compared to our storage requirements for uncompressed tables and indexes. In fact, I was surprised to find a 3x increase in storage savings compared to the great compression that we already observed with Adaptive Compression on the DB2 10.5 server.” “Using DB2 10.5 with BLU Acceleration, our storage consumption went down by about 10x compared to our storage requirements for uncompressed tables and indexes. In fact, I was surprised to find a 3x increase in storage savings compared to the great compression that we already observed with Adaptive Compression on the DB2 10.5 server.” “Using DB2 10.5 with BLU Acceleration, our storage consumption went down by about 10x compared to our storage requirements for uncompressed tables and indexes. In fact, I was surprised to find a 3x increase in storage savings compared to the great compression that we already observed with Adaptive Compression on the DB2 10.5 server.” 「非常に感銘を受けたのは、DB2 10.5が提供するBLU アクセラレーションによって、 テーブル・データのインデックスの作成やデータの集計を一切行うことなくパフォーマ ンスを大幅に改善できたことです。当社のワークロードの設計とチューニングを行う 際に、リードタイムを大きく短縮できます」 - BNSF Railway、データ・ソリューション・アーキテクト、Kent Collins氏
    • © 2013 IBM Corporation db tech showcase 大阪 2013 33 CCBCが大幅にストレージ容量を削減し、パフォー マンスを改善 “BLUアクセラレーションによってテーブルのサイズを 10分の1にすることができま した。しかも、インデックスの作成やデータの集計を行うことなく、パーティショニン グを行う必要もありません。当社のさまざまな種類のテーブルが混在する環境で は、テーブル・サイズの削減効果は10分の1から25分の1になります」 - SAP Basis担当およびDBA、Andrew Juarez氏 「当社のスキーマのうちの1つをDB2 10.5によるBLUアクセラレーション・ ベースのテーブルに変換すると、分析クエリーの処理スピードが4倍から 15倍改善しました」 - SAP Basis担当およびDBA、Andrew Juarez氏
    • © 2013 IBM Corporation db tech showcase 大阪 2013 34 DB2 BLU Acceleration 34 ストレージ C1 C2 C3 C4 C5 C6 C7 C8C1 C2 C3 C4 C5 C6 C7 C8 圧縮とエンコードが 行われた列テーブル C1 C2 C3 C4 C5 C6 C7 C8C1 C2 C3 C4 C5 C6 C7 C8 従来の行形式の テーブル SIMD機能を備えたCPU BLUアクセラレーションを 実装したデータベース BLU DMS (BLUテーブル用) ランタイム 従来の DB2ランタイム BLU ランタイム 従来のDB2バッファープール 従来のDMS (非BLUテーブル用) • 列ストア • プロセッサに適応した並列処理 • ハイブリッド型データベース
    • © 2013 IBM Corporation db tech showcase 大阪 2013 35 複数のワークロードを処理する ソフトウエア・ソリューションBLU Acceleration DB2® 10.5  トランザクションの可用性を恒常的に高めることが可能 99.999%の可用性を達成し、最大数千キロメートル内で災害復旧を実現すること によって、ダウンタイムを最小化  アナリティクスの高速化 インメモリーのみで処理を行うことによるコストや制限を発生させることなく、インメ モリーのハイブリッド・データベースの処理スピードを25倍改善  システムの取得コストを大きく削減 Oracle Databaseアプリケーションとの互換性を99%以上に保ったうえで、Oracle に比べて取得コストが3分の1以下  将来にわたって有効な情報インフラを実現 NoSQLとIBM Mobile Databaseを活用 DB2 10.5は、より大量のデータをより迅速に 処理・分析するためのスマートなアプローチを提供
    • © 2013 IBM Corporation db tech showcase 大阪 2013 36 ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目 的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありませ ん。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかな る保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責 任を負わないものとします。 本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすこ とを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むもので もありません。 本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するも のではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつで も変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含ま れている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したもので も、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいて います。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレー ジ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと 同様の結果を得られると確約するものではありません。 記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたもの です。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。 IBM、IBM ロゴ、ibm.com、DB2、およびPureDataは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。 他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。 現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。