Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

1,220 views

Published on

2016/12/14 もう1つのHadoop Summit 〜 #HAWQ #Spark #Kafka などの紹介

Published in: Data & Analytics
  • Be the first to comment

データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

  1. 1. 1© Copyright 2016 Pivotal. All rights reserved. 1© Copyright 2016 Pivotal. All rights reserved. データ活用を推進する 「Pivotal HDB(Apache HAWQ(ホーク))」 2016年12月14日 Pivotalジャパン株式会社 技術統括部 松下 正之 - SQL on Hadoop の決定版、Pivotal HDB2.0技術解説 -
  2. 2. 2© Copyright 2016 Pivotal. All rights reserved. Pivotalの提供するサイクルモデル データ活用成功のためのサイクルモデル
  3. 3. 3© Copyright 2016 Pivotal. All rights reserved. Pivotalの主要製品ポートフォリオ クラウド アジャイル Pivotal Cloud Foundry PaaS基盤 (オープンソース・商用版) Pivotal Labs アジャイル開発&データサイエンス オープンソース Spring, Rabbit MQ, Redis等 Pivotal Greenplum 並列処理DB Pivotal GemFire インメモリ データストア ビッグデータ Pivotal HDB Hadoop及びNative SQLエンジン クラウドサービス=新たなハードウェア
  4. 4. 4© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB (Apache HAWQ)
  5. 5. 5© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB or Apache HAWQ ? Ÿ  これまで商用版として提供していた、Pivotal HAWQを昨年OSS化 Ÿ  それに伴い名称変更 –  商用版: Pivotal HDB OSS版: Apache HAWQ
  6. 6. 6© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB 概要 •  Pivotal HDB –  オープンソースのApache HAWQの商用版 –  HAWQ: HAdoop With Query、読み方: ホーク –  参考URL: http://hawq.incubator.apache.org/ –  Pivotal HDB 2.1(最新)の主要機能 –  性能:HDFSに対する標準SQLによる高速クエリ処理 –  連携:Hive、Hbase、Avro、等 Hadoopデータとの連携 –  エンタープライズストレージ対応 –  EMC Isilonとの連携 –  Pivotalのデータレーク・アーキテクチャの分析エンジンの要
  7. 7. 7© Copyright 2016 Pivotal. All rights reserved. SQL on Hadoop “HDB(HAWQ)” Ÿ  HDFS上の高速データベースエンジン –  ビッグデータに対する高速クエリ処理 –  標準SQL準拠 –  データ・ローカリティ/ショート・サーキット・ リード機能 –  統計解析関数 MADlib に対応 ▪  http://madlib.incubator.apache.org/ Ÿ  HDB 2.x - 主なハイライト - –  Elastic Query Execution Runtime機能 –  Ambariによる統合管理 –  YARN対応 –  HCatalog対応 HDFS PigMapReduce Hadoop
  8. 8. 8© Copyright 2016 Pivotal. All rights reserved. Pivotal HDP/HDBのコンポーネント Apache Pivotal追加機能 セキュリティ プロビジョ ニング 管理 監視 Ranger Knox Atlas HDFS encrypt ion スケジュー リング Oozie Ambari Cloudbr eak Zookee per データ ライフサイクル & ガバナンス Atlas Falcon データ ワークフロー WebHDFS NFS Kafka Flume Sqoop Xtension
 フレームワーク カタログ サービス クエリオプティマイザ ANSI SQL + アナリティクス Pivotal HDB MADlib アルゴリズム ダイナミックパイプライニング Map Reduce Solr Spark Pig Tez Hive Tez Storm Slider Slider Hbase Accumulo Phoenix HDB ツール Ambari User Views Zeppelin Hadoop分散ファイルシステム HDFS YARN データアクセス Pivotal HDP
  9. 9. 9© Copyright 2016 Pivotal. All rights reserved. Hadoop処理をより高速に OS HDFS MapReduce OS GPDB データ 処理層 データ IO層 OS HDFS HDB •  Cプロセスによる低 いオーバヘッド •  中間データのオン メモリ処理 •  Javaプロセスによる 高いオーバヘッド •  中間データのオンディ スク処理 HDFSレイヤーにIO処理 時のオーバヘッド •  Cプロセスによる低 いオーバヘッド •  中間データのオン メモリ処理
  10. 10. 10© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB2.x系性能検証 (業界標準指標TPC-DSを使用) Ÿ  TPC-DS Performance Review –  比較: Pivotal HDB2.0 vs. Cloudera Impala 2.5 Ÿ  別資料で説明致します –  Pivotal HDBの導入を検討されている方で、本内容にご興味のある方は、 私(松下)もしくはPivotal社員まで別途お問い合せ下さい
  11. 11. 11© Copyright 2016 Pivotal. All rights reserved. Pivotal eXtension Framework(PXF) Ÿ  HDB(HAWQ)から外部データに対して、 クエリアクセスを可能にする拡張フレー ムワーク Ÿ  HDFS上のファイル、Hiveテーブル、 Hbaseテーブルのデータなどにアクセ スするためのビルトイン・コネクタ –  HDFS/Hive/HBase/AVRO Ÿ  拡張フレームワークによる、連携対象 データの追加も可能 –  ユーザは他のデータストアにアクセスするた めのオリジナル・コネクタ(Java)を作成するこ とも可能 HDFS HBase Hive Xtension Framework
  12. 12. 12© Copyright 2016 Pivotal. All rights reserved. HDB(HAWQ)高度分析機能の標準実装 Ÿ  パラレル処理による高い性能 Ÿ  SQLインタフェイス Ÿ  分析関数 MADLib の標準実装 –  線形回帰 –  ロジスティック回帰 –  多重ロジスティック回帰 –  K平均 –  アソシエーションルール –  PLDA –  …
  13. 13. 13© Copyright 2016 Pivotal. All rights reserved. 高度分析機能MADlibの標準実装 予測的モデリングライブラリ 線形システム解析 •  疎行列ソルバー •  密行列ソルバー 行列因子分解 •  特異値分解 (SVD) •  低ランク近似 一般化線形モデル •  線形回帰 •  ロジスティック回帰 •  多項ロジスティック回帰 •  コックス比例ハザード •  回帰分析 •  エラスティックネット型正規化 •  サンドイッチ推定 機械学習アルゴリズム •  主成分分析(PCA) •  アソシエーションルール分析 (アフィニティ分 析,マーケットバスケット分析) •  トピックモデリング (パラレルLDA) •  決定木 •  アンサンブル学習(ランダムフォレスト) •  サポートベクターマシン •  コンディショナルランダムフィールズ(CRF) •  クラスタリング (K平均法) •  クロスバリデーション 記述統計 スケッチベース推定 •  CountMinスケッチ •  Flajolet-Martinスケッチ •  最頻値スケッチ 相関関係 統計値サマリ サポートモジュール 配列演算 疎ベクトル ランダムサンプリング 確率関数 Latest release: MADlib v1.9, URL: madlib.net
  14. 14. 14© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB (Apache HAWQ) 詳細
  15. 15. 15© Copyright 2016 Pivotal. All rights reserved. HAWQ Ÿ  HAWQのサービス Ÿ  マスターサービス Ÿ  クライアント接続の制御 Ÿ  問い合わせへの回答 Ÿ  クエリプランの作成 Ÿ  スレーブノードへの処理の割り当て、処理 結果のとりまとめ Ÿ  メタデータ (global system catalog)の保 持・管理(ユーザデータは保持しない) HAWQ Standby Master HAWQ Segment Server HAWQ Master Ÿ  マスターサービス Ÿ  HA構成におけるウォーム・スタンバイノード(手動HA) Ÿ  HAWQ Masterとの間でトランザクションログのレプリ ケーションを実施(メタデータの同期) Ÿ  スレーブサービス Ÿ  Masterからのクエリプランに従いHDFS上のユーザ データを処理
  16. 16. 16© Copyright 2016 Pivotal. All rights reserved. HAWQ Ÿ  HAWQの構成 –  マスター/スレーブ構成。マスターサービスはActive – Standby のHA構成 –  HDFS稼働が前提。 –  PXFを通じてHive / HBase連携する場合はその準備も必要 –  スケールアウト (必要に応じてスレーブノードの追加が可能) HAWQ Segment Server HAWQ Master HAWQ Standby Master マスター系ノード(HA構成) スレーブ系ノード HAWQ Segment Server HAWQ Segment Server HAWQ Segment Server HAWQ Segment Server HA HDFS
  17. 17. 17© Copyright 2016 Pivotal. All rights reserved. HAWQ データ書き込み(InsertによるCSVファイルのロード) Inter Connect HAWQ Master HDFS DataNode HAWQ Segment 2 HDFS DataNode HAWQ Segment 3 HDFS DataNode HAWQ Segment 1 1 1 1 libhdfs3 libhdfs3 libhdfs3 HDFS DataNode HAWQ Segment 4 libhdfs3 2 2 2 3 33 書き込み要求 HDFS NameNode HAWQ Metadata HDFS NameNode Address HDFS Datanode list Point! Pivotalが改良した libhdfs3(C API)により高 速にHDFSへデータ配置 Point! <Data Locality> セグメントに割り振られた データブロックの1つを必ず 自身のデータノードに配置 gpfdist
  18. 18. 18© Copyright 2016 Pivotal. All rights reserved. Read 要求 HAWQ Data読み込み(Selectによるデータの参照) Inter Connect HAWQ Master HDFS NameNode HDFS DataNode HAWQ Segment 2 HDFS DataNode HAWQ Segment 3 HDFS DataNode HAWQ Segment 1 1 1 1 libhdfs3 libhdfs3 HDFS DataNode HAWQ Segment 4 libhdfs3 2 2 2 3 33 List of file to read HDFS Datanode list Point! <Short circuit read> ローカルディスクにあるデータブロッ クをlibhdfs3を通して、最優先で読 み込む。 DataNode(Java)を介さず直接HDD より読み込むことで高速化を実現し ている。 これをShort circuit readをいう。 libhdfs3
  19. 19. 19© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB(Apache HAWQ)がもたらす価値 Ÿ  インタラクティブな分析環境の提供 –  Hiveと比較して数十倍から数百倍の性能向上 Ÿ  既存資産(プログラムとスキル)の活用 –  ANSI SQL92,98,2003への対応 Ÿ  Hadoop環境でBI/BAツールを利用してデータ分析 –  ODBC/JDBC標準インターフェースを提供 Ÿ  データ連携機能により、Hadoop/HDB間のデータ移動が不要 –  PXF機能によるHive、Hbase、Avro、等のHadoopデータへの透過的クエリアクセス Ÿ  既存DBとのデータ二重持ちコストの削減 –  HDFS上への全データの統合
  20. 20. 20© Copyright 2016 Pivotal. All rights reserved. おまけ Ÿ  Pivotal HDBをちょっと使ってみたい方には、 –  HDB 2.0 Sandbox on HDP VM をご用意しております –  https://network.pivotal.io/products/pivotal-hdb#/releases/1695 (無償・ユーザ登録) Ÿ  Pivotal Japan Tech Community のご紹介 –  Pivotal関連の技術情報を共有するグループ –  https://pivotal-japan.connpass.com/
  21. 21. 21© Copyright 2016 Pivotal. All rights reserved.

×