Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ほんとに使える?Big Data SQL検証結果から見る、その有益性(性能編)

1,850 views

Published on

パートナー企業のNTTデータ先端技術株式会社様によるOracle Big Data SQL 検証の検証に関する資料です。
Oracle Exadata のDWH処理を Oracle Big Data Appliance にオフロードした構成で、DWH処理の性能やOLTP処理への影響などの観点で、検証頂いています。
より詳細なデータやノウハウについては、是非、NTTデータ先端技術株式会社様にお問い合わせください。

NTTデータ先端技術㈱オラクル事業部
oracle-sales@intellilink.co.jp

Published in: Data & Analytics
  • Be the first to comment

ほんとに使える?Big Data SQL検証結果から見る、その有益性(性能編)

  1. 1. © 2017 NTT DATA INTELLILINK Corporation ほんとに使える?Big Data SQL検証結果から見る その有益性(性能編) NTTデータ先端技術株式会社オラクル事業部 チーフエンジニア 煤田 弘法
  2. 2. 2© 2017 NTT DATA INTELLILINK Corporation 1. Exadata、Big Data ApplianceおよびBig Data SQLのご紹介 2. 検証の概要 3. 検証の環境および条件 4. 検証結果のサマリ 5. 検証結果の詳細および考察 アジェンダ
  3. 3. © 2017 NTT DATA INTELLILINK Corporation 3 1. Exadata、Big Data Applianceおよび Big Data SQLのご紹介
  4. 4. 4 4© 2017 NTT DATA INTELLILINK Corporation Oracle Exadata 概要 ■あらゆるワークロードに対して最適なパフォーマンスを提供する統合DB基盤! PCIフラッシュ・ドライブ構成。X5~ ※1:Exadata Technical Deep Dive:Architecture and Internals:http://www.oracle.com/technetwork/database/exadata/exadatatechnicaldeepdive-3518309.pdf ※1
  5. 5. 5 5© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data Appliance (BDA) 概要 ■事前最適化されたビッグデータ活用Hadoopプラットフォーム ※1:オラクルのHadoopソリューションご紹介:https://www.slideshare.net/oracle4engineer/oraclehadoop ※1 ※2:Getting Real About Big Data: Build Versus Buy:http://www.oracle.com/us/corporate/analystreports/esg-getting-real-bigdata-2228170.pdf 事前最適化されたアプライアンス 製品であるため、 45% 導入コスト削減! 35% 構築期間削減! ※2
  6. 6. 6 6© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data Appliance (BDA) 概要 ■ビッグデータの蓄積から変換までを効率的に行うためのビッグデータ活用Hadoop基盤! Exadata (RDBMS) ORACLE Big Data Appliance (Hadoop) 得意な部分を組み合わせることで、効果を発揮!
  7. 7. 7 7© 2017 NTT DATA INTELLILINK Corporation RDBMS と Hadoop エコシステムの効果的な組合せ方法 ※1:クラウドでもデータマネジメントが命!~クラウドで加速するビッグデータ活用の未来~:http://www.oracle.co.jp/events/platform2017/download/ ※1 「IoTデータなどの蓄積」、「大量データの分散処理」などが得意! Hadoopの苦手なところは、 Oracle Databaseが得意なところ!
  8. 8. 8 8© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data SQL (BDS) 概要 ■すべてのデータにSQL一つで、高速に、セキュアに! SQL 必要データ のみ移動 SQL ExadataBig Data Appliance Smart Scan クエリをBDAのデータノードへ オフロード Storage Index クエリに必要なブロックのみを スキャン Predicate Pushdown Hadoopが得意な処理を Hadoop側で実施 結果 外部表 クライアント ソース Big Data SQLによる処理範囲 既存のアプリ、 ツール、スキル そのままで全て のデータが クエリ可能! Big Data SQLにより、Oracle DatabaseとHadoopを簡単に 組み合わせることが可能!
  9. 9. 9 9© 2017 NTT DATA INTELLILINK Corporation Big Data Appliance お客様事例 某コーヒーチェーン様 ※1:クラウドでもデータマネジメントが命!~クラウドで加速するビッグデータ活用の未来~:http://www.oracle.co.jp/events/platform2017/download/ ※1
  10. 10. © 2017 NTT DATA INTELLILINK Corporation 10 2.検証の概要
  11. 11. 11 11© 2017 NTT DATA INTELLILINK Corporation ■検証目的 ■検証の拠点、機器 NTTデータ先端技術 株式会社 Oracle Engineered Systemsラボにて 検証を実施。 検証の概要 現行のExadataのDWH処理をオフロード した際に、どの程度の性能差があるのか シナリオ1:DWH処理の単体性能差 シナリオ2:OLTP処理への影響差 DWHワークロードを、Exadata単体で実行した場合と、 Exadata + Big Data Appliance /Big Data SQLで実行 した場合とでの単体性能を比較します。 Big Data SQLの強みの確認 Exadata 上でOLTPを実行し、DWH処理を Exadata 上で同 時実行した場合と、Big Data Applianceへオフロードした 場合で、高負荷時のOLTP処理の劣化状況を比較します。
  12. 12. © 2017 NTT DATA INTELLILINK Corporation 12 3.検証の環境および条件
  13. 13. 13 13© 2017 NTT DATA INTELLILINK Corporation 検証の環境 Big Data Appliance X5-2 Starter Rack BDA 4.4 Cloudera Enterprise Data Hub Edition V5.5.1 6 node Big Data SQL 3.1 Exadata X5-2 Quarter Rack Extreme Flash Exadata Storage Server Software 12.1.2.1.2 Oracle Database/GI 12.1.0.2.170117 CDB構成(シングルテナント) ・SGA : 10GB / PGA : 10GB ASM Disk Group : Normal Redundancy(2重 化) 10GbEInfiniband Big Data Appliance Exadata Exalytics (クライアント) 最大IOPS 130倍! ※1:Exadata X5-2のデータシートより、SQLフラッシュ最大読取り IOPS(1,036,000 IOPS)とSQLディスク最大IOPS(7,800 IOPS)をもとに計算 最小構成! ※1
  14. 14. 14 14© 2017 NTT DATA INTELLILINK Corporation 検証の条件① • 検証用DBについて ‐ CDB構成のシングルテナントDBを使用 ‐ SGA 10GB、PGA 10GB • 検証用データ・サイズについて ‐ データ・サイズは以下の通り DWH :5TB OLTP :10GB • 表について - Exadata :実表 - BDA/BDS:外部表(ソースとしてHive表を使用) • SQLについて ‐ TPC-H(22本)およびswingbenchのSQL文を使用 ‐ SQL*Plusおよびswingbenchを使用してSQL文を実行 ‐ TPC-Hの並列度は8、16、24の3種類を使用 ‐ TPC-Hの計測では、各SQL文を1つずつ実行し、3回の平均を計測 - 各実施前に、CDBの共有プールとバッファキャッシュはフラッシュする
  15. 15. 15 15© 2017 NTT DATA INTELLILINK Corporation 検証の条件② • SQL文の計測について ‐ 計測には、以下のツールを使用 SQL*Plusのautotrace AWR SQL監視レポート dstat swingbench
  16. 16. 16 16© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data SQLの構成手順 ■Oracle Big Data SQL での外部表の構成手順 ①ソースの配置 ②外部表を定義 ExadataBig Data Appliance 外部表 ソース HDFS ソース
  17. 17. 17 17© 2017 NTT DATA INTELLILINK Corporation 【参考】Oracle Big Data SQLの構成手順(データの配置方法) ■表の2重持ち 参照 ExadataBDA Hive表 外部表 過去 データ ■表の分散配置 実表 直近 データ 参照 ExadataBDA Hive表 外部表 全データ 実表 直近 データ 随時移動 ・直接BDA上のデータを参照すること場合に有効 ・データの2重持ちが発生する ■同一の実表 ExadataBDA データファイル データファイル 実表 従来の実表と 同じ使用方法 ✓今回の検証では、同一の表を使 用しての性能検証となるため、 同一の表を、ExadataとBDAの 両方に配置する ・UNION等で結合 ・データの2重持ち無し
  18. 18. 18 18© 2017 NTT DATA INTELLILINK Corporation 【参考】Oracle Big Data SQLの構成手順(データのローディング方法) ■Table Space in HDFS ExadataBDA データファイル 実表 データファイル 実表 移動 ExadataBDA Hive表 参照 外部表 実表ダンプ/配置 参照 ダンプファイル 参照 ExadataBDA Hive表 外部表 実表 ローディング ■Apache Sqoop ■Copy To Hadoop ✓今回の検証では、はじめにテキ スト形式のフラット・ファイル 用意したため、フラット・ファ イルをHDFSへの配置し、外部 表を定義しました。
  19. 19. © 2017 NTT DATA INTELLILINK Corporation 19 4.検証結果のサマリ
  20. 20. 20 20© 2017 NTT DATA INTELLILINK Corporation 1GB 500GB 5TB データ・サイズ 全SQL合計経過時間比較 シナリオ1:DWH処理の性能差 ✓Exadata Extreme Flashとの 性能差は、1.2倍となった。 ✓時間差は、データ・サイズが大 きくになる程、縮まっている。 ✓幾つかのSQLについては、 Exadataよりも高速になってい る。 1.2倍! 1.8倍! 7.6倍!
  21. 21. 21 21© 2017 NTT DATA INTELLILINK Corporation シナリオ1:DWH処理の性能差 SQLの性能差は、 全SQL(22本)の約6割以上が1.5倍未満! SQL経過時間の比較(差の割合)
  22. 22. 22 22© 2017 NTT DATA INTELLILINK Corporation シナリオ2:DWH処理のオフロード ✓OLTPのTPSは、BDAと組み合 わせた場合、OLTPとDWH を Exadataのみで実行した場合 に比べ、約22%高速となった ✓ワークロード別のトランザク ション数については、どの ワークロード要素についても、 約22%高速となった 22%改善!
  23. 23. © 2017 NTT DATA INTELLILINK Corporation 23 5.検証結果の詳細および考察
  24. 24. 24 24© 2017 NTT DATA INTELLILINK Corporation 検証から得られた結果および考察 ■検証から得られた結果 ・データ・サイズおよび読込量 -ORC→I/O量削減 -Snappy→データサイズ削減 →BDSのSQL経過時間に効果 ・SQL経過時間(DWH) -数TB程度→Exadataとほぼ同等もしくは短い -数GB程度→Exadataが短い ・データ読込の動作の違い -Oracle DB →Smart Scan、Storage Index(Exadataの場合) -BDA/BDS →Smart Scan、Storage Index →Exadataと同じ機能が使用出来る。 →行列絞込み(ORC、Parquetの場合) ■想定されるBDA/BDSの効果的な使用ケース ・データ・サイズ観点 -大福帳や予約台帳など、大量データ(数TB程度)のデータに対して処理を行いたい場合 ・データ・フォーマット観点 -様々なデータ・フォーマットのIoTデータに対する、列の絞込みなどを行いたい場合 -列指向処理は行いたいが、In-Memoryオプションでは技術的に敷居が高い場合 -既存のRDBのデータと、現在増加しつつあるIoTのデータの組合せを行いたい場合 -大福帳や予約台帳など、大量データを機械学習のデータとしても使用したい場合 ・その他 -Hadoopは扱いたいが、DBのエンジニアしかいない場合 -システム基盤において、大量データのディスクI/Oが、ボトルネックの原因となる可能性がある場合 -1000列を超えるような多くの属性を持つデータ(一般的なRDBMSでは1表の列数は1000程度) DWHを簡単にオフロード出来、経過時間や ディスクI/Oに大きな効果が得られる! Oracle DBと組み合わせることにより、 システム基盤として大きな効果が期待できる!
  25. 25. 25 25© 2017 NTT DATA INTELLILINK Corporation 【参考】Oracle Database と Big Data SQLの組み合わせについて ※1:Oracle Database 12c Release 2 コアテク・セミナー:http://otndnld.oracle.co.jp/ondemand/od12c-oct2016/06_DB12201_coretech_BigData_forOTN_v3.pdf ※1
  26. 26. 26 26© 2017 NTT DATA INTELLILINK Corporation SQL別経過時間の比較 データサイズ 約5TB 並列度 最小差 最大差 平均差 8 0.68 8.86 2.06 16 0.97 13.07 2.92 24 1.00 13.19 3.21 0.9 2.0 1.0 1.1 1.0 1.1 1.1 1.5 1.1 1.0 2.0 1.4 1.3 2.3 1.2 1.2 1.3 3.3 3.7 6.5 8.9 0.7 0.0 2.0 4.0 6.0 8.0 10.0 0 1,000 2,000 3,000 4,000 5,000 Exadata BDA/BDS 経過時間比較 1.3 1.0 1.4 4.4 1.1 1.2 1.4 1.4 2.1 1.3 2.7 1.9 2.9 2.4 1.4 4.0 1.3 2.6 4.6 10.0 13.2 7.0 0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0 0 1,000 2,000 3,000 4,000 Exadata BDA/BDS 経過時間比較 並列度8 SQL経過時間 並列度24 SQL経過時間 ✓並列度が低い方が、差が小さく なる傾向にある。 →厳しいリソース制限があり、並 列度を挙げられない場合でも、 BDAとの組合せで効果が出る。 ✓経過時間が長いSQLほど、 ExadataとBDAの経過時間差が 小さくなる傾向にある。 →データ読込に起因する経過時間 増加の場合、BDAの組合せで効果 が出る。 並列度と経過時間差の割合 1.0 1.2 1.2 3.6 1.0 1.2 1.0 1.2 2.1 2.2 2.2 1.0 1.9 3.0 2.3 3.9 1.4 1.4 4.4 9.1 13.1 4.9 0.0 5.0 10.0 15.0 0 1,000 2,000 3,000 4,000 Exadata BDA/BDS 経過時間比較 並列度16 SQL経過時間 検証結果、リソース状況の詳細については 割愛させていただいております。 検証結果、リソース状況の詳細につきましては、お手数ですが 弊社までお問い合わせいただきますようお願いいたします。 NTTデータ先端技術㈱オラクル事業部 oracle-sales@intellilink.co.jp
  27. 27. © 2017 NTT DATA INTELLILINK Corporation

×