Recommended
PDF
[db tech showcase Tokyo 2018] #dbts2018 #D27 『Verticaの進化が止まらない! 機械学習、データレイク、処...
PDF
Introduction of Oracle Database Architecture
PDF
PostgreSQL 10 新機能 @オープンセミナー香川 2017
PDF
perfを使ったPostgreSQLの解析(後編)
PDF
バッチ処理にバインド変数はもうやめません? ~|バッチ処理の突発遅延を題材にして考えてみる~
PDF
PostgreSQL Conference Japan 2021 B2 Citus 10
PPTX
Vertica 8.1.1(8.1 SP1) 新機能
PDF
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
PPTX
PPTX
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
PDF
DLLAB Ignite Update Data Platform
PDF
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
PPTX
SIGMOD 2022Amazon Redshift Re-invented を読んで
PDF
[db tech showcase Tokyo 2016] A13: 最新版VerticaのAnalytics機能を駆使して実現する簡単ログ分析 by日本...
PPTX
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PDF
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
PDF
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
PPTX
PPTX
PDF
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
PPTX
02 kueri zui_shi_hua_notamenopuroziekushiyonshe_ji_
PDF
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
PPTX
Vertica 8.0.1 (8.0 SP1) 新機能
PPTX
Data x AI x API で考えるビジネスインフラ
PDF
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
PDF
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
PDF
Osc2012 spring HBase Report
More Related Content
PDF
[db tech showcase Tokyo 2018] #dbts2018 #D27 『Verticaの進化が止まらない! 機械学習、データレイク、処...
PDF
Introduction of Oracle Database Architecture
PDF
PostgreSQL 10 新機能 @オープンセミナー香川 2017
PDF
perfを使ったPostgreSQLの解析(後編)
PDF
バッチ処理にバインド変数はもうやめません? ~|バッチ処理の突発遅延を題材にして考えてみる~
PDF
PostgreSQL Conference Japan 2021 B2 Citus 10
PPTX
Vertica 8.1.1(8.1 SP1) 新機能
PDF
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
Similar to Vertica 8.1.0 新機能
PPTX
PPTX
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
PDF
DLLAB Ignite Update Data Platform
PDF
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
PPTX
SIGMOD 2022Amazon Redshift Re-invented を読んで
PDF
[db tech showcase Tokyo 2016] A13: 最新版VerticaのAnalytics機能を駆使して実現する簡単ログ分析 by日本...
PPTX
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PDF
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
PDF
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
PPTX
PPTX
PDF
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
PPTX
02 kueri zui_shi_hua_notamenopuroziekushiyonshe_ji_
PDF
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
PPTX
Vertica 8.0.1 (8.0 SP1) 新機能
PPTX
Data x AI x API で考えるビジネスインフラ
PDF
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
PDF
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
PDF
Osc2012 spring HBase Report
Vertica 8.1.0 新機能 1. 2. Deploy and Analyze Anywhere
エクサバイトスケールのパフォーマンス
Unified architecture delivers frictionless data movement and
orchestration for thousands of concurrent users
In-Database分析機能の拡充
Applied Machine Learning, geospatial analytics, and more
クラウドおよびオープンソースとの連携強化
MSFT Azure cloud support, native Hadoop ORC and Parquet
readers enable data analysis-in-place, optimized Spark and
Kafka integration
Best-Fit
Engineering
妥協なきビッグデータ分析プラットフォームで
データ指向の組織を支援
HPE Vertica 8.0.0 “Frontloader” 概要
3. Vertica Analytics Platform v8.1の主要なアップデート
エクサバイトスケールの
パフォーマンス
– フラッタンテーブル
非正規化テーブルで抽象化するこ
とで、正規化されたスキーマへの
クエリ処理と比較し、高速化やマ
ネジメントを簡単に。
– 高速ロード – 複数ノードで、ス
レッド処理の並列化で高速化
– セッションレベルのメモリ効率化
クエリオブジェクトレベルでのラ
イフタイムで管理
– SQLプランのoptimizer directions –
ダイレクトテットクエリが複雑な
サブクエリJoinや分析をサポート
– Management Console
カタログサイズのモニター&ア
ラート
In-Database分析機能の拡充
– Spark 2.0 / Scala 2.11対応
– Kafka schema registryサポート
フレキシブルなデータパイプライ
ンの運用
– Kafkaパイプラインからのロード時
のマルチノードスレッドの利用
– Hadoopラックアウェアネス
ネットワーク利用の効率化、
Verticaパフォーマンスの向上
– Hadoopクラスターダウン時のクエ
リキャンセル
– Vertica on Azure
15ノードクラスターテンプレート
クラウドおよびオープンソース
との連携強化
– サポートベクターマシーン(SVM)
二項分類サポート
– データ欠損値の補完
– 近似パーセンタイル
データ探索の効率化
3
4. 5. フラッタンテーブル(Flattened Tables)
5
A B
Fact C
D
Fact_ABDC
Normalized Columns Denormalized Columns
– 非正規化したテーブルの作成やメンテナンスを簡素化
– スタースキーマのJoin処理と比較し、高速パフォーマンスを実現
– フラッタンテーブルへのクエリ処理はJOIN処理無しで実行可能
– ディメンジョンを緩やかに更新する環境に最適
– 非正規化したデータは、ライセンス利用としてカウントしない
Normalized Star-Schema De-Normalized Flattened Table
6. 7. 8. 9. 10. 11. Vertica 8.1 新機能:フラッタンテーブル
11
I. 1ステップのロード
II. D, E, I, Rテーブルに更新があった場合、 refresh_column コマンドで一括更新可能
III. ディメンジョン(マスター)とファクトのカラムの関連付けは動的にOn/Offが可能
ディメンジョン(マスター)群 非正規化テーブル
+
12. 従来のテーブル定義
12
Customer
dimension
Cid Name Age
1 Alice 25
2 Bob 30
3 Eve 28
Order
fact
Order_id Cust_id Amount
100 1 15.00
200 1 1000.00
300 2 -50.00
400 3 100.00
500 2 200.00CREATE TABLE custDim (
cid int PRIMARY KEY,
name varchar(20),
age int
);
CREATE TABLE orderFact (
order_id int PRIMARY KEY,
cust_id int,
amount numeric;
);
ディメンジョン(マスター) ファクト
13. フラッタンテーブルの作り方(1)Default句
13
CREATE TABLE orderFact (
order_id int PRIMARY KEY,
cust_id int,
cust_name varchar(20) DEFAULT (
SELECT name FROM custDim
WHERE custDim.cid = cust_id
),
amount numeric;
);
Flattened
Order
fact
Order_id Cust_id Cust_name Amount
100 1 Alice 15.00
200 1 Alice 1000.00
300 2 Bob -50.00
400 3 Eve 100.00
500 2 Bob 200.00
Customer
dimension
Cid Name Age
1 Alice 25
2 Bob 30
3 Eve 28
CREATE TABLE custDim (
cid int PRIMARY KEY,
name varchar(20),
age int
);
ディメンジョン(マスター) ファクト カラムを追加してデフォルト値を定義
ロード時に反映
14. フラッタンテーブルの作り方(2)SET USING句
14
Flattened
Order
fact
Order_id Cust_id Cust_name Amount
100 1 - 15.00
200 1 - 1000.00
300 2 - -50.00
400 3 - 100.00
500 2 - 200.00
Customer
dimension
Cid Name Age
1 Alice 25
2 Bob 30
3 Eve 28
CREATE TABLE custDim (
cid int PRIMARY KEY,
name varchar(20),
age int
);
ディメンジョン(マスター) ファクト カラムを追加してSET USING値を定義
CREATE TABLE orderFact (
order_id int PRIMARY KEY,
cust_id int,
cust_name varchar(20) SET USING (
SELECT name FROM custDim
WHERE custDim.cid = cust_id
),
amount numeric;
);
ロード完了後、別コマンドで反映
15. 16. ノードごとのカタログサイズを確認するSQLサンプル
SELECT node_name
,max(ts) AS ts
,max(catalog_size_in_MB) AS catlog_size_in_MB
FROM (
SELECT
node_name,trunc((dc_allocation_pool_statistics_by_second."time")::TIMESTAMP,
'SS'::VARCHAR(2)) AS ts
,sum((dc_allocation_pool_statistics_by_second.total_memory_max_value -
dc_allocation_pool_statistics_by_second.free_memory_min_value)) / (1024 * 1024) AS
catalog_size_in_MB
FROM dc_allocation_pool_statistics_by_second
GROUP BY 1,trunc((dc_allocation_pool_statistics_by_second."time")::TIMESTAMP,
'SS'::VARCHAR(2))
) foo
GROUP BY 1
ORDER BY 1;
16
17. Faster copy data load operations
– スレッド並列処理を各ノードで同時実行
– 最大3倍のパフォーマンス
17
Better performance for a lot of (50) small files
18. 19. 20. 21. 22. 23. 24. 25. 26. 8.1における機械学習に関する新機能一覧
新機能 概要
SVM分類 トレーニングデータに基づいて、あるカテゴリまたは他のカテゴリにデータを
割り当てる分類アルゴリズムを追加
IMPUTE関数 平均値またはモードのいずれかを使用して、データ内のパーティションごとに
欠損値を補完可能に
新しい正規化の関数 新しい正規化の関数、NORMALIZE_FIT、APPLY_NORMALIZE、
RESERSE_NORMALIZEを追加し、正規化関連のパラメーターを保持可能に
新しい構文 機械学習の関数でUSING PARAMETERSシンタックスを使用可能に
モデルのセキュリティ 機械学習のモデルに対するセキュリティ設定が可能に
ALTER MODELとDROP MODELの追
加
これまでのRENAME_MODELをALTER MODELに、DELETE_MODELを
DROP_MODELに置き換えより直感的に操作可能に
APPROXIMATE_MEDIANと
APPROXIMATE_PERCENTILEの追加
新しい関数を使用して、大きなデータセットの推定値を高速取得可能に
27
27. 28. Vertica Spark Connector 概要
Verticaの格納データレイアウトに最適化された、双方向のデータコネクター
Node 1
Node 2
Node 3
HPE Vertica
Executor
Executor
Task
Task
Task
Task
Task
Task
RDD
Dataframe
WORKER NODE
WORKER NODE
Partition
Partition
Partition
Partition
Partition
Partition
Spark Dataframe to Vertica (S2V)
Spark Dataframeから
Vertica tableへのデータロード
HPE Vertica Connector for Apache Spark
Node 4
Vertica to RDD/Dataframe (V2S)
VerticaからSpark RDDおよびDataframe
へのデータエクスポート
29. Vertica Spark Connector を利用することによるメリット
– Vertica上のテーブルデータをデータソースとして、Sparkによる分析を可能にする(V2S)
– Sparkでの処理が困難な大量データに対する複雑なクエリーは、Verticaの高速エンジンを活用してIn-Databaseで処理
– 結果をSparkオブジェクトにエクスポートし、Sparkエコシステムを活用した分析に引き渡すことが可能
– Sparkを高速で拡張性の高いETLとして活用(S2V)
– Spark側で実行した高度な変換処理の結果セットを、Verticaの並列性、HDFSとの接続性およびオープンソースデータ
フォーマットとの親和性を活かして効率的にデータロード可能
Executor
Executor
Task
Task
Task
Task
Task
Task
RDD
Dataframe
Vertica Table Data Segment
Node 1
Vertica Table Data Segment
Node 2
Vertica Table Data Segment
Node 3
WORKER NODE
WORKER NODE
Partition
Partition
Partition
Partition
Partition
Partition
HPE Vertica
Vertica 8.1より、Spark
ConnectorがSpark 2.0 /
Scala 2.11に対応
30. Kafka “schema registry” サポート
– スキーマレジストリは、Kafkaベースのメッセージスト
リーム基盤Confluent Platformのコンポーネントのひと
つ(Confluent3.0: Kafka 0.10 にて機能をサポート)
– Avroデータのスキーマ定義(フォーマット)を一元的
に管理することが可能
– 異なるIoTデバイスから生成されるさまざまなログを柔
軟かつ容易に世代管理することが可能
31
gen 1 gen 2 gen 2 gen 1 gen 2
schema registry
Manufacturer I Manufacturer II
例)Smart Meters
31. 32. 33. Vertica on Azure - 15 nodes (90TB) までプロビジョニング可能に
Vertica on Azure http://tinyurl.com/hpxho9v
34
既存のAzure環境内に
Vericaをプロビジョニングする
ことが可能になった
Vertica management console
も同時にオートインストール可能
になった
34. 35. Server
• RHEL/CentOS 7.3
• Oracle Enterprise Linux (Compatible Mode) 7.3
• LVM Support on RHEL 6.8
Hadoop/Kafka
• HDP 2.5
• MapR 5.2
• Kafka 0.10
Client Drivers
• MS Windows Server 2016 for ADO.NET and ODBC drivers
UNIX
• AIX 7.1
• Mac OS X 10.12
サポートプラットフォーム– 追加
36. 37. ODBC driver 下位互換を強化
39
– 課題: Verticaのクライアントドライバーは、上位互換のみのサポート
(DBアップグレード時に、旧バージョンのクライアントドライバーの継続利用が可能)
従い、クライアントドライバーのアップグレードを行うためには、DBのアップグレードが
必須となり、クライアントドライバーの新機能を使用したいユーザーの障壁となっていた
– Vertica 8.1~: ODBCクライアントドライバーは、下位互換もサポート
最新のクライアントバージョンで以下のServer VersionのVerticaにアクセスすることが可能
7.1.x 7.2.x 8.0.x 8.1.x
8.1.x Yes Yes Yes Yes
8.0.x Yes Yes
7.2.x Yes Yes Yes
7.1.x Yes Yes Yes Yes
ODBCClientVersion
Server Version
Forward Compatible
Backwards Compatible - NEW
38. Editor's Notes #3 roadmap for enhancing traditional data warehouse capabilities
roadmap for a semantic design tier; system and solution auditing and health management to assure use-case SLA compliance; static and dynamic cost-based optimization, with the potential to span processing environments and data structures; management and orchestration of multiple processing engines; and elastic workload management and process distribution.
#4 http://qiita.com/kimutansk/items/a1cfbca2b92f0e5d7b9b#schema-registry
#16 This is a rolling (up to 3 year) road map and is subject to change without notice
#20 This is an example of a #35 This is a rolling (up to 3 year) road map and is subject to change without notice
#41 Thank you.