Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
世界最...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
自己紹...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
DWH...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
Act...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
Act...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
速さの...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
DWH...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
でも、...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
同じカ...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
Vec...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
実行命...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
ブラン...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
その結...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
Vec...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
Had...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
まずは...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
スケー...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
クラウ...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
Vec...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
もう一...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
「速さ...
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.
記載さ...
Upcoming SlideShare
Loading in …5
×

[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検証結果とユーザー事例~ by 株式会社インサイトテクノロジー 平間大輔

191 views

Published on

Db2 Warehouse (旧名:dashDB Local)は、Dockerコンテナベースで提供され、DWHとSparkを統合した新しいコンセプトを持った製品です。本セッションでは、「Db2 Warehouse 実機検証やってみた! シリーズ」として、ネットワールド様、インサイトテクノロジー様が実施されたDb2 Warehouse 検証結果のご紹介に加え、DWH基盤だけではない、機械学習分析基盤としてのDb2 Warehouseの価値をご紹介します。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検証結果とユーザー事例~ by 株式会社インサイトテクノロジー 平間大輔

  1. 1. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. 世界最速のAnalytic DBが Hadoopとタッグを組んだ! 平間大輔 株式会社インサイトテクノロジー Chip Nickolett Actian Corporation Mary Schulte Actian Corporation
  2. 2. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. 自己紹介 • Apple II発売の日に生まれた40歳 • 前職...肩書はDBA、実態は何でも屋 • 現在...DBコンサルタントとして入社、現状は何でも検証屋
  3. 3. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. DWH向けDBはRed Ocean
  4. 4. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. Actian Vectorとは何者か? Copyright © 2013 Insight Technology, Inc. All Rights Reserved. SQL Parser Ingres Rewriter Ingres Optimizer Ingres Storage & Executor SQL Parser Ingres Rewriter Ingres Optimizer Classic Ingres Storage & Executor X Compiler Vector Rewriter Vector Executor Compressed PAX/DSM Modify Heavy Modify Add Ingres Vector x100
  5. 5. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. Actian Vectorの実力は? Price/Performance US$/QphH@3TB 0 Performance (QphH@3TB) Source: www.tpc.org / Jul 7, 2016 ※Sep 3, 2017平間確認。Top5は結果変わらず。 500,000 1,500,000 2,000,000 1,000,000 Sybase IQ 30 Dec 2013 $1.29 US 230,119 32 cores Microsoft SQL Server 2016 31 Jul 2016 $0.72 US 969,504 72 cores $0.38 US 2,140,307 96 cores Actian Vector 5.0 31 Jul 2016 Microsoft SQL Server 2016 01 Jun 2016 $0.60 US 1,071,018 72 cores Microsoft SQL Server 2014 14 Sep 2015 $1.08 US 725,686 72 cores Microsoft SQL Server 2014 26 May 2015 $0.99 US 700,392 72 cores Microsoft SQL Server 2014 16 Apr 2014 $2.04 US 461,837 60 cores 3TB RAM3TB RAM 3TB RAM 3TB RAM 3TB RAM 3TB RAM1TB RAM Top 7 Non-Clustered Database System TPC-H 3TB Scale Factor
  6. 6. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. 速さの秘密を探る ベクター演算 カラムナー データ自動圧縮CPUキャッシュ マルチコア並列処理… ストレージインデックス Time/CyclestoProcess Data Processed DISK RAM CHIP 10GB2-3GB40-400MB 2-20150-250Millions
  7. 7. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. DWH向けDBの基本のき – カラムナー Prod ID Prod Name Prod ID Prod Name Prod ID Prod Name Prod ID Prod Name Prod ID Prod Name Date Date Date Date Date Prod ID Prod Name Prod ID Prod Name Prod ID Prod Name Prod ID Prod Name Prod ID Prod Name Date Date Date Date Date 1ブロックには様々な タイプのデータが格納 されているので圧縮効 率を上げにくい 1ブロックには同様の タイプのデータが格納 されているので圧縮効 率を上げやすい 通常のDB(行指向) 分析用DB(列指向)
  8. 8. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. でも、みんなやってるんだよね? DWH用ベンチマークのTPC-HでmonetDBと比較してみよう 実行環境 • AWS EC2のi3.4xlargeを使用 16vCPU, 122GB Memory, NVMe SSD • データベースのサイズ:1TB(Scale Factor=1000) VS monetDBとは • オープンソースカラムナーDBのパイオニア • 実はVectorはmonetDBを100倍速くするプロ ジェクトとしてスタートした
  9. 9. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. 同じカラムナーなのに、この差は? 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 Vector monetdb 秒 TPC-H(SF=1000) クエリ実行時間 839秒 16,936秒 ※monetdbが処理中にリソース不足でエラーとなったQ1, Q10, Q14を除いた実行時間
  10. 10. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. Vectorの肝は、CPUの使い方にあり SIMD (Single Instruction Multiple Data) Pentium ⅢよりSSE(Streaming SIMD Extensions)として搭載され、 Sandy BridgeよりIntel AVX(Advanced Vector eXtensions)へ ・・・ ・・・ ・・・ ・・・ ・・・ Instruction Data Output
  11. 11. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. 実行命令数の比較 27412968251 2.3858E+11 1.9685E+11 7.82182E+11 1.88149E+12 1.87184E+12 1 9 7 29 69 68 0 10 20 30 40 50 60 70 80 0.0E+00 1.0E+12 2.0E+12 Columnar DB A Columnar DB B In Memory DB A Rt = Instructions / (IPC * Hz * Parallelism) Row Store DB A Row Store DB B CPUInstructions(count) ComparisonvsVector select sum(l_extendedprice * l_discount) as revenue from lineitem -- 6億件, 80GB のデータ where l_shipdate >= date '1996-01-01' and l_shipdate < date '1996-01-01' + interval '1' year and l_discount between 0.02 - 0.01 and 0.02 + 0.01 and l_quantity < 24 SIMD効果により、少ない命令数で済む TPC-H Q6
  12. 12. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. ブランチミス数の比較 1.8E+07 1.1E+09 3.0E+08 1.1E+09 1.6E+09 7.7E+08 1 64 17 62 88 43 0 10 20 30 40 50 60 70 80 90 100 0.0E+00 1.0E+09 2.0E+09 Columnar DB A Columnar DB B In Memory DB A Row Store DB A Row Store DB B Rt = Instructions / (IPC * Hz * Parallelism) CPUBranch-Misses(count) ComparisonvsVector そもそも分岐命令数が1~2桁少ない。よってブランチミスのペナルティも少なくて済む。
  13. 13. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. その結果がクエリの高速実行に 0.48 3.44 35.58 209.45 467.36 332.56 1 7 74 434 968 689 0 200 400 600 800 1000 1200 0 50 100 150 200 250 300 350 400 450 500 Columnar DB A Columnar DB B In Memory DB A Row Store DB A Row Store DB B Rt = Instructions / (IPC * Hz * Parallelism) QueryElapsedTime(sec) ComparisonvsVector 実行時間の比較
  14. 14. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. Vectorの弱点:スケールアウトできない 多くのDWH向けDBでは スケールアウトで性能向上 これまでのVectorは スケールアップのみ!
  15. 15. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. Hadoopの力を借りてクラスタ化! - Vector in Hadoop (VectorH) DataNode DataNode DataNode DataNode DataNode NameNode Vector x100 x100 x100 x100 x100
  16. 16. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. まずはHadoop上のライバルと小手調べ 1.477118 136.996 521.968 1490.442 1 93 353 1,009 0 200 400 600 800 1000 1200 0 200 400 600 800 1000 1200 1400 1600 VectorH Hive on Tez Hive MapReduce Spark SQL (2.0) 倍 秒 TPC-H (SF=1000) Q14 実行時間 • TPC-Hデータベースのサイズ:1TB(Scale Factor=1000) • 実行環境:i3.4xlarge (16vCPU, 122GB Memory, NVMe SSD, 10Gbit Ethernet) • データノード9台で実行 • Hive, SparkのストレージはORC + snappy • 各プロダクトの設定はインストール時のデフォルトから変更なし 速い! MapReduce よりは速く なったが... メモリ不足で 本来の力は 発揮できず... select 100.00 * sum(case when p_type like 'PROMO%’ then l_extendedprice * (1 - l_discount) else 0 end) / sum(l_extendedprice * (1 - l_discount)) as promo_revenue from lineitem, part where l_partkey = p_partkey and l_shipdate >= date '1996-01-01’ and l_shipdate < date '1996-01-01' + interval '1' month ; Q14(TPC-Hの中では極悪度かなり低め)
  17. 17. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. スケールアウトもばっちり 0 100 200 300 400 500 600 700 800 900 1000 Single 3 datanodes 6 datanodes 9 datanodes 秒 TPC−H (SF=1000) クエリ実行時間 ノード数を3倍にすると 速度が2倍に
  18. 18. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. クラウドのあいつと比べよう DWH用ベンチマークのTPC-Hで クラウド定番のDWHである某DBと比較してみよう VectorH • AWS EC2のi3.4xlargeを使用 16vCPU, 122GB Memory, NVMe SSD • DB設定についてはデフォルトのまま VS 某DB • dc1.8xlargeを使用 32vCPU, 244GB Memory, SSD • 主キーの一部へDISTKEYを設定 • カラムの圧縮設定はロード時の自動設定を利用 • これまでと同様にTPC-Hで比較(使用する22クエリの実行時間を単純足し上げ) • TPC-Hデータベースのサイズ:1TB(Scale Factor=1000) • マシン構成が異なるため、実行結果はCPUコア数で比較 • ストレージの違いによる差を減らすため、2回連続実行して2回目の結果を採用
  19. 19. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. VectorHの底力 0 100 200 300 400 500 600 700 48 64 80 96 112 128 144 160 秒 クラスタ全体のCPUコア数 TPC−H (SF=1000) クエリ実行時間 VectorH 某DB • コア数でそろえるとVectorH 側のノード数が多くなるた め、ノード間通信が増えて処 理速度には不利。 • にもかかわらず、処理は某 DBの2/3程度の時間で完了。 速度にして1.5倍。 (3nodes) (6nodes) (3nodes) (2nodes) (4nodes) (5nodes) (9nodes)
  20. 20. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. もう一つの弱点はつないで解決 Vectorの弱点:機能が少ない! • ユーザー定義関数(UDF)がない • RDBMS以外の機能は最小限 →できないことは他でやらせる! sqlContext.sql("""CREATE TEMPORARY TABLE vector_table USING com.actian.spark_vector.sql.DefaultSource OPTIONS ( host "172.31.2.228", instance "VH", database "tpch", user "actian", password "actian", table "supplier” )""") val result=sqlContext.sql("select count(*) from vector_table") result.show() Spark-Vector Connectorの使用例
  21. 21. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. 「速さ」に特化して生き残れ!
  22. 22. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved. 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2017 Insight Technology, Inc. All Rights Reserved.

×