[D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita

1,625 views

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,625
On SlideShare
0
From Embeds
0
Number of Embeds
69
Actions
Shares
0
Downloads
34
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

[D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita

  1. 1. 1© Copyright 2014 Pivotal. All rights reserved. 1© Copyright 2014 Pivotal. All rights reserved. Pivotal HD 2.0 - 業界最高レベル SQL on Hadoop 技術「HAWQ」解説 - 2014年6月19日 Pivotalジャパン株式会社 技術統括部 松下 正之
  2. 2. 2© Copyright 2014 Pivotal. All rights reserved. 本日のアジェンダ Ÿ  Pivotalについて –  会社概要 –  コンセプト –  ソリューション・ポートフォリオ Ÿ  Pivotal HD 2.0 –  Pivotal HD 2.0技術 –  HAWQ性能検証結果報告 –  HAWQデモ Ÿ  まとめ
  3. 3. 3© Copyright 2014 Pivotal. All rights reserved. Pivotal について
  4. 4. 4© Copyright 2014 Pivotal. All rights reserved. 次世代エンタープライズPaaSのための新会社 Pivotal社始動(2013年4月1日) 2013年3億ドル 2017年10億ドル 出資比率 CEO ポール・マリッツ 従業員数 2,000人 売り上げ規模(計画)
  5. 5. 5© Copyright 2014 Pivotal. All rights reserved. 次世代のクラウド&ビッグデータアプリケーション PaaS Platform Big & FastData Agile Dev Data Science ソフトウェアで抽象化されたデータセンター) VMAX VNX Isilon Atmos 情報基盤 (インフォメーション・インフラ) Data Domain EMCグループの事業戦略 – 緩やかな水平協業 - Open FW エンタープライズPaaS クラウド、ビッグデータ/ ファストデータ及び アジャイル開発、データ・ サイエンス ソフトウェア・デファインド・ データセンター ハイブリッド・クラウド エンド・ユーザー・コン ピューティング ソフトウェア・デファインド・ ストレージ バックアップ、セキュリティ 統合ストレージ管理(ViPR) Pivotal Data Science Labs
  6. 6. 6© Copyright 2014 Pivotal. All rights reserved. Pivotalのコンセプト エンタープライズのお客様も、Google,Facebookと同様に・・・ 自ら膨大なデータを収集・分析し、早いスピードで市場に対応する 戦略アプリケーションの投入がビジネス競争上必須になる !! コンシューマ・グレイド・エンタープライズ Pivotalのコンセプト •  お客様ビジネスのスピード促進のためのITの仕組みを提供 •  『コンシューマ・グレイド・エンタープライズ』への進化を支援 •  3rd Platform時代の製品技術と活用のための支援サービスを提供
  7. 7. 7© Copyright 2014 Pivotal. All rights reserved. アプリケーションから データが生成される データを溜める データの分析・活用 アプリケーションで 分析結果を実装 Pivotalとは Pivotalとは、、 このビジネスサイクルを迅速に回 す仕組みをお客様と共に実現す るための製品、サービスを提要
  8. 8. 8© Copyright 2014 Pivotal. All rights reserved. クラウド アプリケーション プライベート・クラウド パブリック・クラウド バーチャル・ プライベート・クラウド PaaS基盤 アジャイル開発データサイエンス 開発フレームワーク & オープンソース ビッグデータ ファストデータ データ Pivotalのソリューション・ポートフォリオ
  9. 9. 9© Copyright 2014 Pivotal. All rights reserved. クラウド アプリケーション データ PIVOTAL ONE 導入事例豊富な製品群とオープンソース戦略
  10. 10. 10© Copyright 2014 Pivotal. All rights reserved. Pivotal HD 2.0
  11. 11. 11© Copyright 2014 Pivotal. All rights reserved. ビッグデータ時代に求められる技術: HAWQ ー データ量 RDB Oracle, DB2, MS SQL Server, MySQL, PostgreSQL .. 分散型RDB Greenplum DB PureData, Teradata, Exadata... Hadoop Pivotal HD Cloudera, MapR, Hortonworks.. SQL on Hadoop HAWQ Impala, Drill, Presto,..
  12. 12. 12© Copyright 2014 Pivotal. All rights reserved. Ø  Data Lake: データ処理基盤の基盤要素となるHDFSにデータを蓄積 Ø  あらゆるデータ・要件に応じて処理エンジンを使い分ける Pivotal データプラットフォーム・アーキテクチャ アナリティック データマート SQL処理 オペレーショナル インテリジェンス イン・メモリ データベース ラン・タイム アプリケージョン HDFS データ ステージング データ管理 Pivotal データプラットフォーム ストリーム インジェスチョン ストリーミング処理 Software-Defined Datacenter New Data-fabrics ...ETC イン・メモリ グリッド Data Lake
  13. 13. 13© Copyright 2014 Pivotal. All rights reserved. Pivotal HD 2.0 の国内販売開始(2014年6月2日)
  14. 14. 14© Copyright 2014 Pivotal. All rights reserved. Pivotal HD 概要 •  Pivotal HD 2.0 –  Apache Hadoop 2.2.0 ベース –  Apache Hadoop 2.2.0は、2.X系のGAリリースの位置付け –  処理全体のデータスループット効率化: YARN –  運用・: スナップショット / HDFS Federation / NFSv3によるデータアクセス –  HAWQ(HAdoop With Query、読み方: ホーク) –  性能:HDFSに対する標準SQLによる高速クエリ処理 –  連携:Hive, Hbase, Avro等 Hadoop データとの連携 –  GemFire XD –  性能: ビッグデータ用のインメモリ・データストア –  仮想化・エンタープライズストレージ対応 –  Hadoop構成の VMWare 上での最適化や Isilonとの連携
  15. 15. 15© Copyright 2014 Pivotal. All rights reserved. Pivotal HD 2.0 エンタープライズコンポーネント HDFS HBase Pig, Hive, Mahout Map Reduce Sqoop Flume リソース管理 & ワークフロー Yarn Zookeeper Apache Pivotal追加機能 Command Center コンフィグ デプロイ モニター 管理 Spring XD Pivotal HD 2.0 エンタープライズ Spring Oozie Virtual Extensions Graphlab, Open MPI
  16. 16. 16© Copyright 2014 Pivotal. All rights reserved. 管理・監視ツール Pivotal Command Center Ÿ  PivotalHD用ウェブ管理コンソール –  クラスタ性能・健常性の監視 –  クラスタストレージ状況の監視 –  各サーバへのドリルダウン監視 –  性能指標の表示(リアルタイム・トレンド) –  MapReduceジョブの詳細監視 –  YARN(MapReduce2.0)アプリケーションの監視 –  HAWQクエリの監視
  17. 17. 17© Copyright 2014 Pivotal. All rights reserved. Pivotal Command Center: ダッシュボード(1/2)
  18. 18. 18© Copyright 2014 Pivotal. All rights reserved. Pivotal Command Center: ダッシュボード(2/2)
  19. 19. 19© Copyright 2014 Pivotal. All rights reserved. Pivotal Command Center: MapReduceジョブモニタ
  20. 20. 20© Copyright 2014 Pivotal. All rights reserved. HVEによる仮想基盤最適化 Ÿ  業界唯一VMware Hadoop バーチャルエクステンション(HVE)対応ディスト リビューション –  動作確認済み –  vSphere環境用に最適化 ▪  HDFSレプリケーション時に可用性面で最適なデータ配置先ノード(VM)を決定 ▪  データ配置用ノード(VM)の構成に基づき、性能面で最適な計算用ノード(VM)を決定 ▪  計算用ノードの動的スケールに対応 Ÿ  Vmware Serengeiによる PivotalHD システムの vSphere上へのデプロイ Ÿ  Pivotal社・Vmware社の緊密な協業
  21. 21. 21© Copyright 2014 Pivotal. All rights reserved. HVEによるレプリカ配置ポリシーの拡張 従来のデータレプリケーション (HVE無効時) 物理サーバ1 物理サーバ2 物理サーバ3 物理サーバ4 1 2 3 ラック0 ラック1 HVE有効時の データレプリケーション 1 2 3 ラック0 ラック1 仮想マシン 1 ブロックレプリケーション 物理サーバ1 物理サーバ2 物理サーバ3 物理サーバ4 物理サーバ障害時、複数の仮想マシンが停 止することにより、複数のデータレプリケー ションが停止する可能性有り。 物理サーバ上の仮想マシンには常に1つの データレプリケーションしか構成されないた め、物理サーバ障害時も他物理サーバ上 のデータレプリカによる冗長化を維持。
  22. 22. 22© Copyright 2014 Pivotal. All rights reserved. •  HAWQがもたらすHadoopとデータベースの融合 •  GemFire XDがもたらすHadoopとインメモリデータグリッドの融合 Pivotal HD 2.0 製品構成 HDFS HBase Pig, Hive, Mahout Map Reduce Sqoop Flume リソース管理 & ワークフロー Yarn Zookeeper Apache Pivotal追加機能 Command Center コンフィグ デプロイ モニター 管理 Spring XD Pivotal HD 2.0 エンタープライズ Spring Xtension フレーム ワーク カタログ サービス クエリオプ ティマイザ ダイナミックパイプライニング ANSI SQL + アナリティクス HAWQ – アドバンスド データベースサービス 分散 イン・メモリ ストア クエリトランザ クション インジェス チョン処理 Hadoop Driver – パラレルコンパクション ANSI SQL + イン・メモリ GemFire XD – リアルタイム データベースサービス MADlib アルゴリズム Oozie Virtual Extensions Graphlab, Open MPI
  23. 23. 23© Copyright 2014 Pivotal. All rights reserved. Hadoop処理をより高速に OS HDFS MapReduce OS GPDB データ 処理層 データ IO層 OS HDFS HAWQ •  Cプロセスによる低 いオーバヘッド •  中間データのオン メモリ処理 •  Javaプロセスによる 高いオーバヘッド •  中間データのオンディ スク処理 HDFSレイヤーにIO処理 時のオーバヘッド •  Cプロセスによる低 いオーバヘッド •  中間データのオン メモリ処理
  24. 24. 24© Copyright 2014 Pivotal. All rights reserved. HAWQを支える GreenplumDB 10年の実績 •  GreenplumDBの主要テクノロジーを HAWQ で採用 •  標準 SQL 対応 •  堅牢なクエリオプティマイザ •  ローストア・カラムストア両方への対応 •  圧縮 •  分散格納 •  マルチレベルパーティショニング •  パラレルーロード・アンロード •  高速データ再分散 •  SELECT •  INSERT •  JOIN •  統計解析関数(MADlib) •  ビュー •  外部表 •  リソースマネジメント •  セキュリティ •  認証 •  管理・監視 •  ODBC/JDBC対応
  25. 25. 25© Copyright 2014 Pivotal. All rights reserved. User intelligence   4.2   198   Sales analysis   8.7   161   Click analysis   2.0   415   Data exploration   2.7   1,285   BI drill down   2.8   1,815   47X 19X 208X 476X 648X Pivotal HD HAWQベンチマーク 単位:秒 User intelligence   4.2   37   Sales analysis   8.7   596   Click analysis   2.0   50   Data exploration   2.7   55   BI drill down   2.8   59   単位:秒 9X 69X 25X 20X 21X
  26. 26. 26© Copyright 2014 Pivotal. All rights reserved. HAWQ クエリオプティマイザ Ÿ  コストベースのオプティマイザに より、最適な実行プランを選択 Ÿ  DB処理(スキャン、ジョイン、ソ ート、集計等)に対してコストを算出 Ÿ  セグメント間通信(“モーション”)も オプティマイザが指示 PHYSICAL EXECUTION PLAN FROM SQL Gather Motion 4:1(Slice 3) Sort HashAggregate HashJoin Redistribute Motion 4:4(Slice 1) HashJoin Hash Hash HashJoin Hash Broadcast Motion 4:4(Slice 2) Seq Scan on motion Seq Scan on customer Seq Scan on lineitem Seq Scan on orders
  27. 27. 27© Copyright 2014 Pivotal. All rights reserved. HAWQ高度分析機能の標準実装 •  パラレル処理による高い性能 •  SQLインタフェイス •  分析関数 MADLib の標準実装 –  線形回帰 –  ロジスティック回帰 –  多重ロジスティック回帰 –  K平均 –  アソシエーションルール –  PLDA
  28. 28. 28© Copyright 2014 Pivotal. All rights reserved. Pivotal eXtension Framework(PXF) Ÿ  HAWQから外部データに対して、クエリ アクセスを可能にする拡張フレームワ ーク Ÿ  HDFS上のファイル、Hiveテーブル、 Hbaseテーブルのデータなどにアクセ スするためのビルトイン・コネクタ –  HDFS/Hive/HBase/AVRO/GemFireXD Ÿ  拡張フレームワークによる、連携対象 データの追加も可能 –  ユーザは他のデータストアにアクセスするた めのオリジナル・コネクタ(Java)を作成するこ とも可能 HDFS HBase Hive Xtension Framework
  29. 29. 29© Copyright 2014 Pivotal. All rights reserved. HAWQ性能検証結果報告 (プロジェクタ表示のみスライド含む)
  30. 30. 30© Copyright 2014 Pivotal. All rights reserved. 導入事例:MicroAd PHD/HAWQによるビッグデータ分析とツール統一 PivotaHD/HAWQは、ODBCやJDBCによる接続が可能 •  お客様がお使いのBI/BAツールを Hadoop と連携させることが可能 •  HAWQ は GreenplumDB を Hadoop 用に改良したものでアクセスインタフェイスは GreenplumDB と同じ •  GreenplumDBとHAWQ(Hadoop)にアクセスするためのツールを統一も実現可能 背景: •  IBM PureData/SPSSの分析基盤を構築済み •  ログデータの格納領域はHadoop(CDH無償版)を使っ ている 課題: •  使用している分析ツールからHadoopにアクセスしたい •  HIVEによる検索性能が遅く現実的には利用不可能 •  分析対象データが大きい場合にはHIVEクエリがエラー PHD/HAWQ PoC: •  SPSSとHAWQによる分析が可能であることを確認 •  HIVEと比較して70倍近い高い性能を記録 結果: •  PivotalHD/HAWQの採用決定 •  できなかった分析ができるように 背景・課題 結果
  31. 31. 31© Copyright 2014 Pivotal. All rights reserved. Pivotal HD/HAWQがもたらす価値 Ÿ  インタラクティブな分析環境の提供 –  Hiveと比較して数十倍から数百倍の性能向上 Ÿ  既存資産(プログラムとスキル)の活用 –  ANSI SQL92,98,2003への対応 Ÿ  HIVE,Hbase,Avro等Hadoopデータへの透過的クエリアクセス Ÿ  Hadoop/DB間のデータ移動が不要 Ÿ  データ二重持ちコストの削減 –  HDFS上への全データの統合
  32. 32. 32© Copyright 2014 Pivotal. All rights reserved. HAWQデモ
  33. 33. 33© Copyright 2014 Pivotal. All rights reserved. デモメニューと構成 Ÿ  Hive実行 Ÿ  Pivotal Command Center紹介 Ÿ  HAWQ機能 –  Pivotal eXtension Framework –  HAWQからHiveへのアクセス Ÿ  HAWQ vs. Hive性能簡易比較 Ÿ  ソフトウェア –  CentOS 6.4 64bit –  PHD-2.0.0.0 –  HAWQ 1.2.0.0 Ÿ  ハードウェア MacBook Pro CPU 2.6GHz(4Core) Intel Core i7 Memory 16GB Disk 500GB フラッシュストレージ
  34. 34. 34© Copyright 2014 Pivotal. All rights reserved. まとめ
  35. 35. 35© Copyright 2014 Pivotal. All rights reserved. Pivotalが考える次世代統合分析基盤に必要な ITアーキテクチャとその技術要素
 セントラルDWH データマート BI/BA Pivotal Greenplum Database / Pivotal DCA 構造化データ 生産情報 売上情報 ・ ・ ・ 非構造化データ 顧客情報 ステージング ・ ・ ・ ・ ・ ・ アクセスログ メール・Webコンテンツ M2M 音声 画像・映像 SNS Pivotal HD (Hadoop) 構造化処理 ETL 処理 DWH 統合分析基盤(Unified Analytics Platform) ・・・ 経営者・管理者 業務部門 分析者・情報 システム部門 センサデータ等のリアル タイム取り込み HDFS上のデータに対しての 分析クエリ実行 インメモリ技術による リアルタイム分析 高度分析専門者のための 先進分析関数・連携イン ターフェースの提供 HDFSによる様々なデータ の効率的な格納 シームレスなデータ連携 スケーラブル・アジャイル な基盤
  36. 36. 36© Copyright 2014 Pivotal. All rights reserved. リアルタイム処理(これから) メッセージ キュー受信 Twitter ストリーム受信 TCPソケット受信 ①ストリームデータの分割 ②データの処理(フィルタ、カウントなど) ネットワーク パケット受信 : ストリームデータ処理: 1) 連続的に生成されるデータを 2) ある単位に順次分割し、 3) 順次処理を行う仕組み つまり溜めずに処理!
  37. 37. 37© Copyright 2014 Pivotal. All rights reserved. •  HAWQがもたらすHadoopとデータベースの融合 •  GemFire XDがもたらすHadoopとインメモリデータグリッドの融合 Pivotal HD 2.0 製品構成 HDFS HBase Pig, Hive, Mahout Map Reduce Sqoop Flume リソース管理 & ワークフロー Yarn Zookeeper Apache Pivotal追加機能 Command Center コンフィグ デプロイ モニター 管理 Spring XD Pivotal HD 2.0 エンタープライズ Spring Xtension フレーム ワーク カタログ サービス クエリオプ ティマイザ ダイナミックパイプライニング ANSI SQL + アナリティクス HAWQ – アドバンスド データベースサービス 分散 イン・メモリ ストア クエリトランザ クション インジェス チョン処理 Hadoop Driver – パラレルコンパクション ANSI SQL + イン・メモリ GemFire XD – リアルタイム データベースサービス MADlib アルゴリズム Oozie Virtual Extensions Graphlab, Open MPI
  38. 38. 38© Copyright 2014 Pivotal. All rights reserved. アプリケーション Analytics Apps Carrier Services Online Apps Mobile Apps Contents Services Device Services クライアント 将来構想:Pivotalデータプラットフォーム全体像 セントラルDWH データマート 構造化 データ 売上 情報 顧客 情報 生 データ Hadoop ETL 処理 DB 商品 マスタ マシン データ ETL 処理 GPロードによる 高速双方向連携 Hadoopデータへの SQLアクセス HAWQ高速ロード Hadoop Sqoop/Flume GemFire XDによる モデル更新 GemFire 超低レイテンシ検索 GemFireの リアルタイムロード GemFire XDの Hadoop蓄積 GPDBによる 高速分析 GemFire リアルタイム フィードバック
  39. 39. 39© Copyright 2014 Pivotal. All rights reserved. 「データ・レーク」型分析プラットフォームの必要性 スケールアップ型 分析プラットフォーム スケールアウト型 分析プラットフォーム •  分析処理量が増加すると パフォーマンス劣化 •  分析処理量増加に伴い 増加する管理コスト •  投資に見合わない拡張性と パフォーマンス •  データの種類ごとに異なる 分析プラットフォーム •  分散処理により大規模分析が可能 •  高いコストパフォーマンス •  スケールアウトによる柔軟な拡張 –  必要な時に必要なだけ拡張 –  投資に見合った確実な性能向上 •  構造化・非構造化データ分析の スムーズな連携 従来型アーキテクチャからの転換
  40. 40. A NEW PLATFORM FOR A NEW ERA

×