C14 Greenplum Database Technology - Large Scale-out and Next generation Analytics platform - by Masayuki Matsushita

1,007 views
842 views

Published on

Published in: Business, Technology
1 Comment
2 Likes
Statistics
Notes
No Downloads
Views
Total views
1,007
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
41
Comments
1
Likes
2
Embeds 0
No embeds

No notes for slide

C14 Greenplum Database Technology - Large Scale-out and Next generation Analytics platform - by Masayuki Matsushita

  1. 1. 1© Copyright 2013 EMC Corporation. All rights reserved.Greenplum Database Technology2013年5月29日EMCジャパン株式会社グリーンプラム事業本部松下 正之- Large Scale-out and Next generationAnalytics platform -
  2. 2. 2© Copyright 2013 EMC Corporation. All rights reserved.本日のアジェンダ• はじめに• Greenplum Database 3つの特長– 拡張性: スケールアウト– 高速性: 大規模並列分散処理(MPP)– コストパフォーマンス: 柔軟・選択自由な実装環境• Greenplum Database 高速化技術• 適用領域と事例• おわりに
  3. 3. 3© Copyright 2013 EMC Corporation. All rights reserved.はじめに
  4. 4. 4© Copyright 2013 EMC Corporation. All rights reserved.GREENPLUM概要• 2003年 創業本社 サンマテオ、カリフォルニアCEO: Bill CookPresident and Co-Founder: Scott YaraCTO and Co-Founder: Luke Lonergan• 2006年 Greenplum DB出荷• 2008年 ペタバイトのデータウェアハウスを実現• 2010年7月 EMC社によるM&A発表• 2010年9月 EMCジャパン(株)グリーンプラム事業本部開設• 2010年10月 DCA (DWHアプライアンス) リリース• 2011年4月 SAS / EMC Greenplum 提携発表• 2011年5月 Greenplum MR (Hadoop製品) リリース• 2011年12月 UAP (Unified Analytics Platform) 構想発表• 2012年3月 Pivotal Lab (アジャイル開発) 買収• 2012年3月 Greenplum Chorusリリース• 2012年5月 Analytics Workbench - Data Scientistサービス提供開始• 主要顧客: グローバルで700社以上• 営業拠点: グローバル15拠点 (米国、欧州およびアジア・パシフィック)• 開発拠点: 米国、中国、イスラエル
  5. 5. 5© Copyright 2013 EMC Corporation. All rights reserved.Greenplum DB(DB/DCA)高速MPP DB汎用HW利用可能SWおよびApplianceGreenplumHadoop(MR/HD)エンタープライズ向けHadoopDBとの連携Greenplum関連Solution(Chorus, DataScientist, SASAlliance)GREENPLUMの製品ポートフォリオ
  6. 6. 6© Copyright 2013 EMC Corporation. All rights reserved.アナリティクス時代をリードするソリューションDB ログ経営者 分析専門家 一般社員 WebアプリケーションCRM SFA ・・・BIツールWebコンテンツ 音声ファイル映像ファイル画像ファイル・・・Greenplum DBGreenplum MR/Pivotal HD
  7. 7. 7© Copyright 2013 EMC Corporation. All rights reserved.Greenplum DB3つの特長
  8. 8. 8© Copyright 2013 EMC Corporation. All rights reserved.• サーバノード数、CPU数を問わない容量課金のライセンス体系(ソフトウェア版)• 運用負荷を軽減するチューニングレス思想• 導入・運用コストを削減するアプラインス製品• テスト・開発環境については仮想環境の利用も可能• MPP型DBによる超高速の並列処理性能• データロード、処理、アンロードまでを完全に並列で実行• 標準搭載の豊富な高速化機能(データ圧縮、カラムストア、マルチレベルパーティション etc..)Greenplum DB 3つの特長• 必要な時に最適なシステム投資を実現するスケールアウトアーキテクチャ• サーバノード追加により性能もリニアに向上• クラウド、仮想化、コモディティサーバ、アプライアンスと豊富な実装環境に対応拡張性高速性コストパフォーマンス
  9. 9. 9© Copyright 2013 EMC Corporation. All rights reserved.スケールアウトテクノロジースケールアップ スケールアウト性能 性能初期 リプレース1 リプレース2 初期 追加1 追加2拡張性
  10. 10. 10© Copyright 2013 EMC Corporation. All rights reserved.スケールアウトを支えるテクノロジー低レイテンシ&広帯域なインタコネクトCPU性能の高いエントリレベルサーバ大容量&高性能のストレージ性能パラレルコンピューティングの進化HPC、グリッドコンピューティング、マルチプロセッシング等の技術の成熟高密度化によるストライプ数の増加と性能の向上ネットワークスイッチのコモディティ化と性能向上1990年初頭 100Mbpsスイッチ1990年代末 1Gbpsスイッチ2000年半ば 10Gbsスイッチムーアの法則に沿ったコモディティサーバのCPUの性能向上と低価格化拡張性
  11. 11. 11© Copyright 2013 EMC Corporation. All rights reserved.CPUメモリディスクI/Oを分散して処理を高速化ディスクCPUメモリディスクCPUメモリディスクCPUメモリディスクCPUメモリディスクCPUを使いきれない CPUを使いきれるCPUを使いきれるCPUを使いきれるCPUを使いきれるディスクI/Oがボトルネックとなり、単一ノードでは処理の多重度に限界がある並列処理することで、I/Oが分散され、HW本来の性能を使い切ることができる従来型RDB使用率使用率並列分散処理型DB使用率使用率使用率高速性
  12. 12. 12© Copyright 2013 EMC Corporation. All rights reserved.Greenplum最大の特長:選択出来る実装環境仮想化クラウドコモディティH/WGreenplumDCA• GPDCAでの導入– 最適(最速)環境– サポート負荷軽減• 仮想化S/W上で稼働可能– 仮想インフラ上での開発環境• コモディティH/Wでの導入– 柔軟な拡張性– お客様要件に合わせた機器構成• パブリッククラウド上での稼働– Amazon VPC等を使ったトレーニング・検証環境の構築アプライアンス構成 ソフトウェア構成コストパフォーマンス
  13. 13. 13© Copyright 2013 EMC Corporation. All rights reserved.Greenplum Database アーキテクチャMPP (Massively Parallel Processing)シェアードナッシングアーキテクチャインタコネクトバス... ...マスターサーバ x 2台クエリプランニング&ディスパッチセグメントサーバ x 2台〜クエリの実行&データの格納SQL外部ソースローディング、ストリーミング等SQLを解析し、セグメントサーバのための最適な並列実行プランを作成パラレルデータフローエンジンがハードサーバ性能を最大活用gNetソフトウェアインタコネクトによるセグメント間の効率的なデータ送受信パラレルロードによる高速ローディングGreenplum DCAは、マスターサーバ、インタコネクトバス、セグメントサーバ、そして、これらを管理するための管理スイッチから構成されています。
  14. 14. 14© Copyright 2013 EMC Corporation. All rights reserved.世界最高速のデータロード性能051015202530351ラック 2ラック 3ラックGreenplumA社B社TB/時間
  15. 15. 15© Copyright 2013 EMC Corporation. All rights reserved.他社処理方式とGreenplum方式の比較パラレルデータフローエンジンパラレルデータフローエンジンパラレルデータフローエンジンパラレルデータフローエンジンセグメントサーバローディングプロセスマスタサーバデータソース データソースセグメントサーバ他社
  16. 16. 16© Copyright 2013 EMC Corporation. All rights reserved.Greenplum DB高速化技術
  17. 17. 17© Copyright 2013 EMC Corporation. All rights reserved.Greenplum DB 高速化技術カラムストア 圧縮リソースキュー(ワークロード管理)パーティション
  18. 18. 18© Copyright 2013 EMC Corporation. All rights reserved.GreenplumDB機能2種類のデータストア方式(Greenplum Polymorphic Data Storage)• ローストア– 従来のRDBMSによるデータ格納方式– 行単位のデータレコードアクセスに特化• カラムストア– 特定カラムに対する集約処理を高速化– 他カラムに対する読み込みを排除することによる、IO負荷の軽減– 圧縮によるデータアクセススループットの向上とDB容量の拡大列A 列B 列C 列D 列A 列B 列C 列D読み出す必要のないカラムの値もアクセス。余分なIO負荷が発生特定カラムの値のみアクセスするため、IO負荷を劇的に軽減従来からあるローストアのテーブル カラムストアのテーブル
  19. 19. 19© Copyright 2013 EMC Corporation. All rights reserved.一つのテーブル中においてのローストアとカラムストアの組み合わせ例新しいデータ古いデータカラムストア・圧縮率重視の圧縮で格納最近のデータは行単位での参照・更新アクセスが多いローストア・性能重視の圧縮で格納1つのテーブルとしてユーザからは透過的に見える期間やデータ使用目的・頻度などにより、格納方法を変更して、効率的に使用可能2008年 2009年 2010年 2011年 2012年過去のデータは列単位での集計アクセスが多い
  20. 20. 20© Copyright 2013 EMC Corporation. All rights reserved.GreenplumDB機能圧縮によるIO負荷の軽減• CPUパワーによるデータ解凍が実現する高IOスループット• 格納可能容量の拡大– 同一データ型での圧縮による高い効率性– 非圧縮比3〜5倍の格納効率• カラムストア使用時、カラム方向のより高圧縮の格納が可能CPUによる圧縮データの解凍が実現する高いIOスループットカラム単位のデータ圧縮による高い格納効率.。3〜5倍データの非圧縮格納 データの圧縮格納IOスループットがストレージ性能に依存
  21. 21. 21© Copyright 2013 EMC Corporation. All rights reserved.GreenplumDB機能ワークロード管理 - リソースキュー -複数の利用者・バッチ処理・システムでの同時利用のための機能? ? ? ?? ? ? ????? ? ? ?? ? ? ????? ? ? ?? ? ? ????? ? ? ? ? ? ? ?? ? ? ? ? ? ? ?リソースキュー間でCPUやメモリ割当をプライオリティ付けリソースキュー間でCPUやメモリ割当をプライオリティ付け同時に処理できるクエリ数か、コストの総和をリソースキュー毎に設定エグゼクティブキューレポートキューアナリストグキューアナリストレポート作成担当者マネジメント(CxO)リソースキュー• 複数の利用者やバッチ、システムの同時利用• クエリ処理の優先順位付けを行うことが可能4つの観点から優先順位付けを行う1.同時に処理されるクエリのコストの総和 クエリ毎のコストを確認 複数クエリのコストの総和が指定した閾値を上回ることのないよう制御※コスト:クエリ処理に使用する必要リソース量2.同時に処理されるクエリ数 処理中のクエリ数を確認 処理するクエリの数が指定した閾値を上回ることがないよう制御3.CPUリソースの優先度 リソースキュー間でCPUリソースをどのように割り当てるかを制御4.メモリの優先度 リソースキュー間でメモリをどのように割り当てるかを制御 実行開始待ちのクエリ 実行中のクエリ
  22. 22. 22© Copyright 2013 EMC Corporation. All rights reserved.? ? ? ??? ? ? ?? ????? ? ? ?? ? ? ????? ? ? ?? ? ? ?実行開始待ちのクエリ 実行中のクエリ優先度: HIGH優先度: LOW優先度: MediumリソースキューのしくみXXXロールYYYロールZZZロール??発行されたクエリ? ? ? ? ? ? ? ?? ? ? ?AAAキューロールとリソースキューの関連付けハードウェアリソースの割当(イメージとしては直径の大きさ)同時に実行出来るクエリ数(イメージとしては円柱の長さ)BBBキューCCCキュー相対的に優先度を設定
  23. 23. 23© Copyright 2013 EMC Corporation. All rights reserved.ミラーセグメント機能P1 P2 P3 M6 M8 M10P4 P5 P6 M1 M9 M11P7 P8 P9 M2 M4 M12P10 P11 P12 M3 M5 M7SegmentServer 1SegmentServer 2SegmentServer 3SegmentServer 4通常時のアクティブなセグメントインスタンス“Spread” ミラー方式P1 P2 P3 M10P4 P5 P6 M1M11P7 P8 P9M2M4M12P10 P11 P12M3M5M7“Grouped” ミラー方式Segment Server 1が物理障害時にアクティブなセグメントインスタンスM6M9M8
  24. 24. 24© Copyright 2013 EMC Corporation. All rights reserved.豊富な分析機能• BIツール• SAS• MicroStrategy• Business Objects(SAP)• Cognos/SPSS(IBM)• JasperSoft• Pentaho• JDBC/ODBC接続可能ツール全般• 言語• PL/pgSQL• PL/Perl• PL/Python• PL/Java• PL/R• In-DB分析• 重回帰分析• ナイーブベイズ• サポートベクトル、マトリクス• ウィンドウファンクション, OLAP• PL/R等• 統計解析用ライブラリ MAD Lib• ロジスティック回帰分析• ランダムフォレスト• ディシジョンツリー• K平均クラスタリング• NLTK(自然言語ツールキット)等アプリケーション・言語との連携 インデータベース分析機能GreenplumDBでは従来からあるBI関連アプリケーションとの連携に加え、GreenplumDB自身での分析機能の強化を行っています。In-DB分析は GreenplumDBが標準で備えている分析機能です。MAD Libはオープンソースコミュニティーにて開発されている数理統計解析用ライブラリ群です。GreenplumDB自身に標準に備わっていませんが、MAD Libを追加することでこ数理統計解析のさらなる高速化が可能となります。
  25. 25. 25© Copyright 2013 EMC Corporation. All rights reserved.適用領域と事例
  26. 26. 26© Copyright 2013 EMC Corporation. All rights reserved.GreenplumDB適用領域データベース機能別役割(1/2)機能 OLTP処理参照系処理の高速化(キャッシュ)バッチ処理データウェアハウス主なユーザー•顧客•顧客窓口•顧客•顧客窓口•アナリスト-•マネジメント•アナリストサービス•オンライン・トランザクション•オンライン参照•オンライン参照•レポーティング(定型帳票/定型検索)•集計•データマート作成•レポーティング•データマイニング/非定型検索アクセス・プロファイル•複数ユーザによる頻繁な検索と更新•複数ユーザによる頻繁な検索•バッチプロセスによるデータの集計とテーブル作成•複数ユーザによる頻繁な検索と分析ストアデータ 最新のデータ直近3ヶ月のデータ集計対象データ過去3年間の長期データ候補DBOracleDB2GreenplumDB GreenplumDB GreenplumDB
  27. 27. 27© Copyright 2013 EMC Corporation. All rights reserved.OLTP処理参照系処理の高速化(キャッシュ)バッチ処理データウェアハウストランザクションキャッシュトランザクションバッチデータウェアハウストランザクショントランザクショントランザクショントランザクションGreenplumDB適用領域データベース機能別役割(2/2)
  28. 28. 28© Copyright 2013 EMC Corporation. All rights reserved.導入事例: 国内大手製造業者様 (1/3)• システム概要• ORACLE/DBをDBMSとして採用したCRMシステム。• 社内、関連会社に偏在する「顧客接点情報」を統合・一元管理する事で「戦略立案」、「営業施策」、「KPI実績把握」を支援• 100項目ほどの検索条件をエンドユーザ(全国の営業、本社企画立案部門、)が自由に設定し検索できる機能を提供。• システムの課題• 性能 :データローディング、検索に長時間かかりエンドユーザーの使用に耐えない。• コスト:製品コスト、運用コストともに高コスト• 要員 :DBエンジニアの確保が困難• 対応策• DWH製品を導入し、ORACLE/DBのスキーマをそのままDWH/DBに移行し、ユーザはDWH/DBに対して検索。謂わばORACLE/DBのキャッシュとしてDWH/DBを活用。• 製品選定理由• 性能(レスポンス&スループット),初期コスト,拡張コスト,運用コスト、スケーラビリティ全ての点で競合他社(4社)に比べてGreenplumが圧倒的な優位性をベンチマークテストで実証オラクルスキーマを変更無しに移行バッチ処理20倍高速化非定型検索28倍高速化定型検索13倍高速化ロード性能103倍高速化バッチ処理高速化オラクル負荷のオフロード
  29. 29. 29© Copyright 2013 EMC Corporation. All rights reserved.導入事例: 国内大手製造業者様 (2/3)BIツール(非定型クエリ用)OracleDBソースローディング/OLTP• BIツールがOracleへクエリを実行• データソースからのデータはOracleDBへロードソース ソースGreenplumDB導入前システムバッチ処理高速化オラクル負荷のオフロード
  30. 30. 30© Copyright 2013 EMC Corporation. All rights reserved.導入事例: 国内大手製造業者様 (3/3)GPDB BIツール(非定型クエリ用)ソースローディング/OLTP• BIツールがGreenplumへクエリを実行• データの変換はされず、OracleとGreenplumのデータは、1:1の関係にある• Oracle - Greenplum間のデータ連携をトランザクション毎に実施ソース ソーストランザクション毎のデータ連携OracleDBGreenplumDB導入後システム(現在〜今後)よりシームレスなデータ連携へ(連携ツール選定中)バッチ処理高速化オラクル負荷のオフロード
  31. 31. 31© Copyright 2013 EMC Corporation. All rights reserved.優れたコストパフォーマンスと柔軟な拡張性により、SQL Serverで出来なかった処理を可能に導入事例: トライアルカンパニー様用途• フェーズ1: 店舗展開や販売管理、調達管理などの戦略立案を行う際の売上レポート作成・データ分析• フェーズ2: バスケット分析などの複雑なデータ分析採用理由• スケールアウト型ソリューション• コモディティ・テクノロジーの採用• コストパフォーマンスの高さ効果• 戦略的データ活用基盤として、将来の店舗拡大によるデータ増加に随時対応できる拡張性をもった• GreenplumDB導入によるシステム能力の劇的な向上により、従来のSQL Serverで30分以上かかっていた集計処理(1800万から274万抽出)のレスポンスを約250倍の性能向上となる7秒で達成• 既存処理時間の大幅な削減により、GISデータを取り込んだ出店政策支援を実現
  32. 32. 32© Copyright 2013 EMC Corporation. All rights reserved.おわりに
  33. 33. 33© Copyright 2013 EMC Corporation. All rights reserved.アナリティクス時代のIT基盤• 企業の保有データ量は増加し、既存のインフラでは追いつかない• 社外に存在する、「ビジネスに活用できるデータ」はそれ以上に増加• キャパシティ・プランニングが困難・不可能スケールアップからスケールアウトへの転換が必要• スモール・スタートが可能• 柔軟な拡張データ増加が予測できない時代に最適なアーキテクチャの選択従来型インフラでは対応が困難 アーキテクチャの転換
  34. 34. 34© Copyright 2013 EMC Corporation. All rights reserved.アナリティクス時代のIT基盤• 企業の保有データ量は増加し、既存のインフラでは追いつかない• 社外に存在する、「ビジネスに活用できるデータ」はそれ以上に増加• キャパシティ・プランニングが困難・不可能データ増加が予測できない時代に最適なアーキテクチャの選択従来型インフラでは対応が困難 アーキテクチャの転換ビッグデータ分析プラットフォームスケールアウト型超並列分散処理DB
  35. 35. 35© Copyright 2013 EMC Corporation. All rights reserved.アナリティクス時代のIT基盤に求められるテクノロジー・キーワード• スケールアウト・アーキテクチャ– データが増加しても処理時間増加しないアーキテクチャ– 分析の結果が成功するとより多く(量、種類)のデータで分析するニーズが出てくる– ビッグ・データは「量を質」に変化させる試みでもある• スモール・スタート可能な実装– ROIは事前には想定困難– プロジェクト初期段階はデータも少ない– プロジェクトの進展と共にデータが増加する• In DB Analytics– 大量データを高速に処理する必要性– スピードが価値を生む– 非定形処理を何度も繰り返す(イテレーションの重要性)• オープンなアーキテクチャ– 今後登場してくる様々な新技術を迅速に適用できる事が重要– クラウド対応• 機械学習テクノロジー( Machine Learning )
  36. 36. 36© Copyright 2013 EMC Corporation. All rights reserved.今後のGreenplum関連のセッション• 5/30(木) Session5: 17:00 - 17:45– EMCジャパン株式会社 中村 完– EMC Big Data Solution by Greenplum- Integrated analytic platform for the coming cloud era -• 5/31(金) Session3: 15:00 - 15:45– ヴイエムウェア株式会社 市村 友寛– Pivotal Data Management Solution by EMC/VMware- Making Big, Fast Data scale for your business -

×