Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Copyright © 2015 NTT DATA Corporation
2015/06/12
株式会社NTTデータ
技術開発本部サービスイノベーションセンタ
データウェアハウス/ビジネスインテリジェンス・ラボ®
In-Database An...
1Copyright © 2015 NTT DATA Corporation
アジェンダ
1.NTTデータのビッグデータに対する取り組みについて
2.In-Database Analytics開発
3.スケールアップサーバ HP Superdo...
Copyright © 2015 NTT DATA Corporation 2
1.NTTデータのビッグデータに対する取り組みについて
3Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータビジネスの推進体制
R&D
システム開発
ソリューション
提供
分析
コンサルティング
技術開発本...
4Copyright © 2015 NTT DATA Corporation
業務の最適化
将来の予見
因果関係の発見
データ量の増大
データの多様化
データ取得の
高頻度化
ビ
ッ
グ
デ
ー
タ
ビ
ジ
ネ
ス
ア
ナ
リ
テ
ィ
ク
ス
...
5Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
4つのビジネスインテリジェンス
蓄積された膨大なデータから、
隠れた関係性や規則性を発見
例:顧客のスコアリン...
6Copyright © 2015 NTT DATA Corporation
プロアクティブ型BI WHAT-IF型BI
発見型BI
1.NTTデータのビッグデータに対する取り組みについて
4つのBIと情報分析・活用シナリオ
ターゲティング型
...
7Copyright © 2015 NTT DATA Corporation
プロアクティブ型BI WHAT-IF型BI
発見型BI
1.NTTデータのビッグデータに対する取り組みについて
4つのBIと情報分析・活用シナリオ
ターゲティング型
...
8Copyright © 2015 NTT DATA Corporation
分析シナリオ類型 概要
① 予兆発見型 行動変化や状態変化の監視による予兆の発見
② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出
外れ値...
9Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータのとらえ方
ヒト
地球人口=70億人以上
モノ
IoTデバイス=300億以上(*)
センシング・デ...
10Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータ活用への期待
社
会
個
人
限られた
社会リソースの
有効活用
変化の予兆を
察知して、
機先...
11Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
データ分析および技術の変遷
黎明期 ビッグデータ時代
分析トレンド
技術トレンド
分析ツールの登場
(デスク...
12Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
変化する顧客ニーズ
見える化
予測
(意思決定)
バッチ リアルタイム
SIベンダー
(受託)
システム自身...
Copyright © 2015 NTT DATA Corporation 13
2.In-Database Analytics開発
14Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsへの取り組み(FY2014~)
データ活用AP
状況1
(Volume...
15Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analytics概要
ステージング / 正規化
領域
分析モデル適用
分析モデル構築
...
16Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsへの取り組み目的
データ
ガバナンスの
確立
分析モデルの
ポータビリ...
17Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
NTTデータ版In-Database Analyticsのコンセプト
 NTTデータ独自の分析方法論「BICL...
18Copyright © 2015 NTT DATA Corporation
分析シナリオ類型 概要
① 予兆発見型 行動変化や状態変化の監視による予兆の発見
② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出
外れ...
19Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsに適合するアルゴリズムタイプ
 1つの処理を細かなサブタスクに
分割...
20Copyright © 2015 NTT DATA Corporation
[需要予測]
 Linear
Regression
 ARIMA
etc.
[スコアリング]
 Random Forest
 Neural Network
...
21Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analytics現状と今後の予定
TeradataHANA/IQOracle
In-D...
22Copyright © 2015 NTT DATA Corporation
SQL処理パート
In-Database Analyticsは各RDBMSが備える、独自のユーザ定義関数を実装するための
機能であるUDF(User Define...
23Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
リアルタイムデータ分析
DWH
CEPストリームデータ
モデル構築
(バッチ処理)
モデル適用
(リアルタイム処...
Copyright © 2015 NTT DATA Corporation 24
3.スケールアップサーバ HP Superdome X でのベンチマーク
25Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
HP Superdome Xとは
スケールアップに特化することで実現した大規模統合処理基盤...
26Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマークの目的
スケールアップさせることでより効率的にHWリソースを活用し、
データ分...
27Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマークシナリオ
スケールアップによるクラスタリング処理の性能向上を検証・評価
 ベ...
28Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
【参考】K-Meansについて
一番近いクラスタ中心にデータ点を割り当てし、データを分類
...
29Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
アルゴリズム説明
MapReduceを用いた分散処理により、CPUリソースを効率的に利用可...
30Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク環境
 HW
HP Superdome X
Cell : 8(フル搭載)
C...
31Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
デモ環境
Internet
VPN
秋葉原UDX
CONFERENCE 6F
日本HP大島...
32Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
デモシナリオ
 ポイント
 Many Coreを用いたクラスタリング分析を実演
 C...
33Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
【再掲】ベンチマークシナリオ
スケールアップによるクラスタリング処理の性能向上を検証・評価...
34Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク結果 -1-
240
4,000
3,757sec
(1h)
2,000 3,...
35Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク結果 -2-
HP Superdome X
Intel Xeon E7 v2,...
36Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク結果 -3-
異次元のCPUリソースを1クエリ&シングルプロセスで
100%活...
37Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
【参考】ベンチマーク結果 -3-
大量のデータを従来の分析速度よりも高速に、“1サーバ”で...
38Copyright © 2015 NTT DATA Corporation
まとめ
NTT DATA In-Database Analytics
 蓄積された大量データに対するデータ分析を高速に実行するための分析技術
 これまでのデータ...
Copyright © 2011 NTT DATA Corporation
Copyright © 2015 NTT DATA Corporation
※資料中のその他の商品名、会社名、団体名は、各社の商標または登録商標です。
Upcoming SlideShare
Loading in …5
×

[db tech showcase Tokyo 2015] D34:In-Database Analyticsが実現する圧倒的なデータ分析パフォーマンス by 株式会社NTTデータ 横川雅聡 & 日本ヒューレット・パッカード株式会社 小森博之

7,032 views

Published on

'大量データを高速に分析するには、データの移動を最小限にするべき'というコンセプトで開発した大量データ分析処理技術であるIn-Database Analytics。スケールアップサーバHP Superdome Xで動かしたところ、一度のデータ分析処理で240物理コアを使い切り、これまでのデータ分析では実現できなかった圧倒的なパフォーマンスを実現しています。本セッションでは、現在注目を浴びている機械処理アルゴリズムを用いたベンチマーク結果について説明します。

Published in: Technology
  • Be the first to comment

[db tech showcase Tokyo 2015] D34:In-Database Analyticsが実現する圧倒的なデータ分析パフォーマンス by 株式会社NTTデータ 横川雅聡 & 日本ヒューレット・パッカード株式会社 小森博之

  1. 1. Copyright © 2015 NTT DATA Corporation 2015/06/12 株式会社NTTデータ 技術開発本部サービスイノベーションセンタ データウェアハウス/ビジネスインテリジェンス・ラボ® In-Database Analyticsが実現する 圧倒的なデータ分析パフォーマンス
  2. 2. 1Copyright © 2015 NTT DATA Corporation アジェンダ 1.NTTデータのビッグデータに対する取り組みについて 2.In-Database Analytics開発 3.スケールアップサーバ HP Superdome X でのベンチマークとデモ
  3. 3. Copyright © 2015 NTT DATA Corporation 2 1.NTTデータのビッグデータに対する取り組みについて
  4. 4. 3Copyright © 2015 NTT DATA Corporation 1.NTTデータのビッグデータに対する取り組みについて ビッグデータビジネスの推進体制 R&D システム開発 ソリューション 提供 分析 コンサルティング 技術開発本部  As COE of Business Intelligence in NTT DATA Group  Evaluation of State-of-the-art  Promotion of technical development and demonstration お客様 NTTデータ数理システム  Original Data Analysis Packages  > 80 Data Scientists  > 200 Analysis Use Cases ビッグデータビジネス推進室  Cloud Based Solutions : BizXaaS BA  Telco., Insurance, Banking, Retail, Manufacture… NTTデータのビッグデータ活用 =「ビジネスインテリジェンス」および「ビジネスアナリティクス」を ベースとしたアプローチ SVI BDB MSI
  5. 5. 4Copyright © 2015 NTT DATA Corporation 業務の最適化 将来の予見 因果関係の発見 データ量の増大 データの多様化 データ取得の 高頻度化 ビ ッ グ デ ー タ ビ ジ ネ ス ア ナ リ テ ィ ク ス 要件 アーキテクチャ Big Data基盤 Business Analytics基盤 分析テンプレート、分析AP 数理システム社 独自PKG群 NTTデータ独自のデータ分析技法 DWHアプライアンスHadoop インメモリDB 1.NTTデータのビッグデータに対する取り組みについて DWH/BI/BA/BDへの取り組み DWH:データウェアハウス(Data Warehouse)/BI:ビジネスインテリジェンス(Business Intelligence) BA:ビジネスアナリティクス(Business Analytics)/BD:ビッグデータ(Big Data) ビッグデータを対象にした分析技法・分析環境・基盤の整備を進め、 ビジネスアナリティクスのサービス展開をサポート
  6. 6. 5Copyright © 2015 NTT DATA Corporation 1.NTTデータのビッグデータに対する取り組みについて 4つのビジネスインテリジェンス 蓄積された膨大なデータから、 隠れた関係性や規則性を発見 例:顧客のスコアリング、リスクの計量化 発見型 ユーザ行動を理解し、一歩先回りして、 気の利いたサービスや機能を提供 例:レコメンド、不正検出 プロアクティブ型 新しい業務方式をデザインし、 業務方式の変更に伴う効果を事前に試算 例:SCM最適化、BPOに伴うリソース最適化 WHATーIF型 蓄積されたデータを様々な角度から 集計・分析、見える化 例:計画業務、経営管理、需給調整 集計分析型 代表的なBI 業務改革の 領域 サービス革新の 領域 これまでの案件実績から、独自に分類
  7. 7. 6Copyright © 2015 NTT DATA Corporation プロアクティブ型BI WHAT-IF型BI 発見型BI 1.NTTデータのビッグデータに対する取り組みについて 4つのBIと情報分析・活用シナリオ ターゲティング型 異常検出型 予兆発見型 与信管理型 外れ値検出型 不正検出型 コンテクスト・アウェアネス型 マーチャンダイジング型 予測・制御型 リスク・シミュレーション型 収益シミュレーション型 リスクヘッジ型 最適化型 集計分析型BI 評価・要因分析型 プロセス・トレース型
  8. 8. 7Copyright © 2015 NTT DATA Corporation プロアクティブ型BI WHAT-IF型BI 発見型BI 1.NTTデータのビッグデータに対する取り組みについて 4つのBIと情報分析・活用シナリオ ターゲティング型 異常検出型 予兆発見型 与信管理型 外れ値検出型 不正検出型 コンテクスト・アウェアネス型 マーチャンダイジング型 予測・制御型 リスク・シミュレーション型 収益シミュレーション型 リスクヘッジ型 最適化型 集計分析型BI 評価・要因分析型 プロセス・トレース型 目的に応じたシナリオを組込むことで ビッグデータ活用を高度化する
  9. 9. 8Copyright © 2015 NTT DATA Corporation 分析シナリオ類型 概要 ① 予兆発見型 行動変化や状態変化の監視による予兆の発見 ② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出 外れ値検出型 標準的な行動・状態の定義と逸脱の検出 ③ 予測・制御型 収益シミュレーション型 業務改善による増収効果の試算 リスク・シミュレーション型 業務のモデル化と不確実要素によるリスクの試算 リスク・ヘッジ型 業務のモデル化と最適化手法を用いた意思決定策の提示 最適化型 業務のモデル化とリスク分散手法を用いたリスク低減策の提示 ④ ターゲティング型 見込み顧客など重点アプローチすべきターゲットの抽出 ⑤ 与信管理型 顧客・企業の滞納・倒産リスクの試算 ⑥ 評価・要因分析型 さまざまな対象の比較評価と改善要因の特定 ⑦ マーチャンダイジング型 さまざまな視点での売れ筋ランクの作成と品揃えの決定 ⑧ コンテクスト・アウェアネス型 行動履歴・嗜好の分析から一歩先回りしたサービスの提示 ⑨ プロセス・トレース型 成長・発展プロセスの抽出と促進・阻害の特定 1.NTTデータのビッグデータに対する取り組みについて 【参考】BICLAVISシナリオ類型概要
  10. 10. 9Copyright © 2015 NTT DATA Corporation 1.NTTデータのビッグデータに対する取り組みについて ビッグデータのとらえ方 ヒト 地球人口=70億人以上 モノ IoTデバイス=300億以上(*) センシング・データ ライフログ・データ RFID モノの運搬 各種センサ 機器や 構造体の状態 リモート センシング 環境、災害 HEMS エネルギー 消費量履歴 SNSやブログ 個人が 発信する 多様なデータ EC 商品探索 プロセス 交通系ICカード 電車の 移動履歴 GPS 車や人の 位置 IB/ATM 決済履歴 ヘルスケア デバイス 健康状態 ビッグデータ *2020年時点のGartner等による推定値 現実世界のデータ化
  11. 11. 10Copyright © 2015 NTT DATA Corporation 1.NTTデータのビッグデータに対する取り組みについて ビッグデータ活用への期待 社 会 個 人 限られた 社会リソースの 有効活用 変化の予兆を 察知して、 機先を制する 気の利いた 知的なサービス 経験価値へのシフト 企 業 低経済成長 少子高齢化 環境保護 グローバル競争激化 予測困難なマーケット スマート端末の浸透 省電力社会 ソーシャルメディアの普及 ビッグデータは「社会」「企業」「個人」に貢献 的確な状況把握と迅速な意思決定が可能となり、 経営メリットや競争優位性を左右する重要なテーマ
  12. 12. 11Copyright © 2015 NTT DATA Corporation 1.NTTデータのビッグデータに対する取り組みについて データ分析および技術の変遷 黎明期 ビッグデータ時代 分析トレンド 技術トレンド 分析ツールの登場 (デスクトップ) RDBMS+ 分析デスクトップツール 構造化データ 非構造化データ 並列分散処理 での大規模化 (Hadoop) CEP等での リアルタイム化 RDBMS+分析サーバ 蓄積基盤と分析基盤の融合 (In-Database Analytics) コプロセッサへの処理 オフロード クラウド基盤の活用 単一データ 大規模化 リアルタイム化 大規模高速化 量的集約 データ 量的個別データ 質的データ 複雑な関係 教師なしデータ 大規模化 統計解析 多変量解析 線型モデル 非線形モデル 機械学習 データマイニング テキストマイニング 並列処理 集団学習 強化学習 人工知能 自動化
  13. 13. 12Copyright © 2015 NTT DATA Corporation 1.NTTデータのビッグデータに対する取り組みについて 変化する顧客ニーズ 見える化 予測 (意思決定) バッチ リアルタイム SIベンダー (受託) システム自身 (自動学習) 従来 現在 分析目的 アルゴリズム/システムの ブラッシュアップ主体 分析処理 全体傾向 個人単位分析対象 お客様のシステムへの期待の変化
  14. 14. Copyright © 2015 NTT DATA Corporation 13 2.In-Database Analytics開発
  15. 15. 14Copyright © 2015 NTT DATA Corporation 2.In-Database Analytics開発 In-Database Analyticsへの取り組み(FY2014~) データ活用AP 状況1 (Volume:量の問題) 状況2 (Variety:多様性の問題) 状況3 (Velocity:速度の問題) • 大量データをNWを介してDWHから分析処理に受け渡すのは 非現実的 • 企業横断的な複合データで分析を行うため共通DB(統合DWH)が 必要 • 発生し続けるデータを即座に分析する必要がある • ビジネススピードの速度に合わせて分析モデルを更新する必要がある データ分析に関する要素技術は出そろってきている感はあるが、 ビッグデータ分析プラットフォームは発展途上状態 DWH (データ蓄積基盤) 分析ツール (データ分析基盤)各種データ
  16. 16. 15Copyright © 2015 NTT DATA Corporation 2.In-Database Analytics開発 In-Database Analytics概要 ステージング / 正規化 領域 分析モデル適用 分析モデル構築 エンドユーザ (ビジネスサイド) データロード 分析者 変換 分析モデルデプロイ DWH 各種データソース サンプリング 従来のアプローチ TypeA. すべての処理はDWH内で実施 分析 モデル SQL Application Building TypeB. 主な処理はDWH内で実施し、 小さな結果セットを分析ツールに受け渡す (プッシュダウン / パススルー) In-Database Analytics=DWHからのデータ抽出を行うことなく、 高速に大量データに対するデータ分析の実現
  17. 17. 16Copyright © 2015 NTT DATA Corporation 2.In-Database Analytics開発 In-Database Analyticsへの取り組み目的 データ ガバナンスの 確立 分析モデルの ポータビリティ向上 統合DWHにてデータ分析処理を 実施することによる Single Version Truthの実現 構築された分析モデル(数式)を スコアリングAP(Java、SQL等)に 組み替える手間を省く 大量のデータに対して 統合蓄積基盤(DWH)内で 高速にデータ分析処理を実現 目的To-Be(ビッグデータ対応) 分析スコアリングの パフォーマンス向上 分析チームの 生産性向上 データの コピーを 減らす QCDの 確保 データの 移動を 減らす 状況1 (Volume) 課題 状況3 (Velocity) 状況2 (Variety) ビッグデータに対する高速なデータ分析処理の実現 =蓄積基盤(DWH)上での並列分散処理
  18. 18. 17Copyright © 2015 NTT DATA Corporation 2.In-Database Analytics開発 NTTデータ版In-Database Analyticsのコンセプト  NTTデータ独自の分析方法論「BICLAVIS®」に対応した アルゴリズムの搭載 →分析目的が明確になれば分析シナリオが決まり、 分析アルゴリズムも定まる  NTTデータ数理システムのノウハウや資産を活かした 短期・高品質の開発 →分析精度の確保、大量データのハンドリング、 計算量低減の工夫 0 Simulation Engine Statistics Engine Optimization Engine Analysis Scenario Database Analysis Procedure Data for Analysis 優位性 チャレンジ  マルチプラットフォーム対応  特定の製品の非依存  並列分散処理への対応 →多くの分析ツールはシングルスレッド処理  モデルの適用をリアルタイムに →CEPへの分析モデル組み込み ビッグデータ時代の分析処理(大量、高速)を実行するためのコアエンジン
  19. 19. 18Copyright © 2015 NTT DATA Corporation 分析シナリオ類型 概要 ① 予兆発見型 行動変化や状態変化の監視による予兆の発見 ② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出 外れ値検出型 標準的な行動・状態の定義と逸脱の検出 ③ 予測・制御型 収益シミュレーション型 業務改善による増収効果の試算 リスク・シミュレーション型 業務のモデル化と不確実要素によるリスクの試算 リスク・ヘッジ型 業務のモデル化と最適化手法を用いた意思決定策の提示 最適化型 業務のモデル化とリスク分散手法を用いたリスク低減策の提示 ④ ターゲティング型 見込み顧客など重点アプローチすべきターゲットの抽出 ⑤ 与信管理型 顧客・企業の滞納・倒産リスクの試算 ⑥ 評価・要因分析型 さまざまな対象の比較評価と改善要因の特定 ⑦ マーチャンダイジング型 さまざまな視点での売れ筋ランクの作成と品揃えの決定 ⑧ コンテクスト・アウェアネス型 行動履歴・嗜好の分析から一歩先回りしたサービスの提示 ⑨ プロセス・トレース型 成長・発展プロセスの抽出と促進・阻害の特定 2.In-Database Analytics開発 【参考】BICLAVISシナリオ類型概要
  20. 20. 19Copyright © 2015 NTT DATA Corporation 2.In-Database Analytics開発 In-Database Analyticsに適合するアルゴリズムタイプ  1つの処理を細かなサブタスクに 分割し並列処理できるアルゴリズム  1つの処理はそれ以上細分化は 出来ないが、同様の処理を異なる 入力データ・パラメータで同時に 実行させ、出力結果をマージする  K-Means etc.  Linear Regression  Random Forest etc.  処理速度向上  大量データ 処理  処理速度向上  分析精度向上 処理のタイプ アルゴリズム例 効果
  21. 21. 20Copyright © 2015 NTT DATA Corporation [需要予測]  Linear Regression  ARIMA etc. [スコアリング]  Random Forest  Neural Network etc. [セグメント分割]  K-Means  Matrix Decomposition etc. 2.In-Database Analytics開発 In-Database Analyticsに適合するBICLAVISシナリオ ④ターゲティング型 ③予測・制御型 ⑧コンテクスト・ アウェアネス型 BICLAVIS シナリオ 説明 ターゲット層発見の起点となるセグメント分割 ターゲット顧客発見のためのスコアリング 過去時系列から将来推移の予測 商品などのアイテムレコメンド [レコメンデーション]  Collaborative Filtering  Matrix Decomposition etc. 赤字:FY2014実装
  22. 22. 21Copyright © 2015 NTT DATA Corporation 2.In-Database Analytics開発 In-Database Analytics現状と今後の予定 TeradataHANA/IQOracle In-Database Analytics Engine Core I/F for Oracle I/F for SAP ・・・ DW Platform I/F Using UDF Random Forest K-Means ・・・ Application Java, C etc. R, Python VMStudio・・・ Algorithms 開発 スコープ SQL Push Down I/F for Teradata Linear Regression お客様とのPoCを通じて成長・発展させていく
  23. 23. 22Copyright © 2015 NTT DATA Corporation SQL処理パート In-Database Analyticsは各RDBMSが備える、独自のユーザ定義関数を実装するための 機能であるUDF(User Defined Function)を用いて、C/C++で実装 分析アルゴリズム処理はSQL処理パートとUDF処理パートに分けられる UDF処理パート 分析モデル構築分析モデル構築前処理前処理 2.In-Database Analytics開発 In-Database Analytics実装方式 分析モデル構築前処理 学 習 デ ー タ 縦 横 変 換 等 分 析 モ デ ル 分 析 モ デ ル 統 合 Reduce 分 析 モ デ ル 構 築 Map サ ン プ リ ン グ カ テ ゴ リ 値 → 数 値 変 換 処 理 学習データ情報 分析パラメータ 実行パラメータ モ デ ル 構 築 UDF 入 力 モ デ ル 構 築 UDF 出 力 モ デ ル 構 築 SP 入 力 カ テ ゴ リ 値 → 数 値 変 換 マ ッ プ 作 成 分 析 モ デ ル ( 一 次 )
  24. 24. 23Copyright © 2015 NTT DATA Corporation 2.In-Database Analytics開発 リアルタイムデータ分析 DWH CEPストリームデータ モデル構築 (バッチ処理) モデル適用 (リアルタイム処理) モデル適用 (バッチ処理) Analysis Model Model Deploy DWH内で作成した分析モデルをCEPに適用することで、 ストリームデータに対してリアルタイムに予測・スコアリングが可能となる モデル構築 (R等) モデル適用 (その他AP) リアルタイム 予測・スコアリング データ分析における これまでの課題  分析モデルの適用には別途アプリケーション化が必要 →QCDの低下につながる  どの製品でも実現できていないため、個別開発が必要 分析モデルにPMML等のポータビリティを持たせる
  25. 25. Copyright © 2015 NTT DATA Corporation 24 3.スケールアップサーバ HP Superdome X でのベンチマーク
  26. 26. 25Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク HP Superdome Xとは スケールアップに特化することで実現した大規模統合処理基盤 異次元の拡張性 標準のOSで稼動サーバーを分割しての 使用が可能 高信頼性を実現 Xeon E7 v2 16CPU, 240コア 12TBメモリ データベース データ分析 運用・管理 完全に電気的に分離され、 障害の影響を他に及ぼさない パーティションに分割すること が可能。 標準のオペレーティングシステムをサポート • Red Hat Enterprise Linux 6.5, 6.6, 7.1 • SUSE Linux Enterprise Server 11 SP3 • Windows Server 2012 R2 • VMWare vSphere 5.5Update 2 1点障害を極限まで減らした ハイエンドUNIXサーバー譲りの高い信頼性 • 故障箇所のブート時自動切り離し • クロック・ジェネレーターの冗長化 • DDDCによるメモリ保護
  27. 27. 26Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク ベンチマークの目的 スケールアップさせることでより効率的にHWリソースを活用し、 データ分析をより高速に処理させることをねらう スケールアウト構成 複数ノードをNWでつなぎ、データを転送する 必要がある これまでのスケールアップ構成 QPI(QuickPath Interconnect)では 全CPU間での直接データ転送ができない HP Superdome Xによる新しいスケールアップ構成 XNC2チップセットによる全CPUを高速かつワンホップで接続 XNC2チップセット
  28. 28. 27Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク ベンチマークシナリオ スケールアップによるクラスタリング処理の性能向上を検証・評価  ベンチマークテーマ  In-Database Analyticsを用いたクラスタリング分析(K-Means)  世界の全人口(72億人)情報を元にした分類を想定  検証データ  件数:100億件  属性:10個(性別、年齢、国籍、収入、etc.)  クラスタ数:4  コア数パターン 1 2 3 60 120 240 パターン# CPUコア数
  29. 29. 28Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク 【参考】K-Meansについて 一番近いクラスタ中心にデータ点を割り当てし、データを分類 1.ランダムにクラスタ数分、 点(クラスタ中心)を プロットする 2.各点に対して一番近い クラスタ中心に割当てる (分類する) 3.分類されたクラスタ内で 中心点を再計算 2-3を各クラスタ中心の 座標が変わらなくなる まで繰り返す
  30. 30. 29Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク アルゴリズム説明 MapReduceを用いた分散処理により、CPUリソースを効率的に利用可能  In-Database AnalyticsにおけるK-Meansは距離計算(Map)と中心の 再計算(Reduce)により、全データを類似性の高いデータ群に分類する 分析モデル構築分析モデル構築分析モデル構築(UDF) 学 習 デ ー タ 分 析 モ デ ル 分 析 モ デ ル 統 合 Reduce 分 析 モ デ ル 構 築 Map モ デ ル 構 築UDF 入 力 モ デ ル 構 築 UDF 出 力 分 析 モ デ ル ( 一 次 ) Map部:距離計算 学 習 デ ー タ … CPU データ分割 計算結果 出力 分 析 モ デ ル ( 一 次 ) Reduce部:中心再計算 分 析 モ デ ル CPU 計算結果 集約 クラスタ中心 出力
  31. 31. 30Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク ベンチマーク環境  HW HP Superdome X Cell : 8(フル搭載) CPU : Intel® Xeon® プロセッサ E7-v2 ファミリー 計240cores メモリ : 12TB OS : Red Hat Linux Enterprise 6.6 HP MSA 2040 Disk : SAS 900GB × 12本 (10krpm) FC : 16Gbps × 8本  SW RDBMS : SAP IQ 16.0 sp10β 分析エンジン : NTT DATA In-Database Analytics 1.0β nParは使用せずシングルパーティション構成 =すべてのCPUコアを1つの分析処理に割り当てる 16Gbps×8
  32. 32. 31Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク デモ環境 Internet VPN 秋葉原UDX CONFERENCE 6F 日本HP大島 ソリューションセンター HP Superdome X 240 Core, 12TB RAM SAP IQ 16.0 SP10β NTT DATA In-Database Analytics 1.0β
  33. 33. 32Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク デモシナリオ  ポイント  Many Coreを用いたクラスタリング分析を実演  CPUリソースをフル活用し分析する様子をモニタリング  デモシナリオ  ベンチマークと同様にヒト情報を対象にしたクラスタリング分析  データ  件数:13.5億(中国の人口相当)  説明変数:10個(性別、年齢、国籍、収入、etc.)  割当コア数:120  比較対象  分析ツール:R  データ:1.2億(日本の人口相当)  割当コア数:120 リソースの有効活用状況および高速処理をご覧頂きます
  34. 34. 33Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク 【再掲】ベンチマークシナリオ スケールアップによるクラスタリング処理の性能向上を検証・評価  ベンチマークテーマ  In-Database Analyticsを用いたクラスタリング分析(K-Means)  世界の全人口(72億人)情報を元にした分類を想定  検証データ  件数:100億件  属性:10個(性別、年齢、国籍、収入、etc.)  クラスタ数:4  コア数パターン 1 2 3 60 120 240 パターン# CPUコア数
  35. 35. 34Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク ベンチマーク結果 -1- 240 4,000 3,757sec (1h) 2,000 3,0000 1,000 1,016sec (17min) (処理時間:秒) 60 入力件数=100億件 すべてNTTD In-Database Analyticsの結果 コア数ごとのK-Means検証結果 高速 120 2,586sec (45min) (コア数)
  36. 36. 35Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク ベンチマーク結果 -2- HP Superdome X Intel Xeon E7 v2, 240Core 20,000 10,859sec (3h1min) 10,000 15,0000 5,000 1,016sec (17min) (処理時間:秒) Intel WhiteBox Intel Xeon E5 v3, 28Core 入力件数=100億件 すべてNTTD In-Database Analyticsの結果 K-Meansスケールアップ検証結果 高速
  37. 37. 36Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク ベンチマーク結果 -3- 異次元のCPUリソースを1クエリ&シングルプロセスで 100%活用したデータ分析処理を実現  CPU使用率(240コア、縦軸:使用率(%)、横軸:時間) 処理が終わった コアから順次開放 nParは使用せずシングルパーティション構成=OSは1つ ベースのDWHプロセス(IQプロセス)も1つ 実行クエリ(SQL)も1命令
  38. 38. 37Copyright © 2015 NTT DATA Corporation 3.スケールアップサーバ HP Superdome X でのベンチマーク 【参考】ベンチマーク結果 -3- 大量のデータを従来の分析速度よりも高速に、“1サーバ”で分析することが可能 100万件 1,000万件 1億件 10億件 100億件 NTTD In-DB HP Superdome X 240Core - - - - 1,016 (17min) NTTD In-DB ※ 16 23 177 1,400 (23min) 10,859 (3h1min) R (OSS)※ 16 179 実行不可 実行不可 - 製品A※ 21 111 実行不可 実行不可 - 製品B※ 24 250 2,817 実行不可 - 製品C※ 20 111 1,259 21,600 (6h) -  他社分析製品との比較(単位:sec) ※Intel Xeon E5 v3 2.6GHz, 28Core, 64GB RAM
  39. 39. 38Copyright © 2015 NTT DATA Corporation まとめ NTT DATA In-Database Analytics  蓄積された大量データに対するデータ分析を高速に実行するための分析技術  これまでのデータ分析では扱えなかったデータ量を処理することで新たな価値を創出  NTTデータ数理システムの信頼性の高い分析アルゴリズムを搭載  NTTデータのデータ分析方法論「BICLAVIS」をベースとしたアルゴリズムの選定 スケールアップへの回帰  単一ノードのため、複雑な機構や管理を必要としない  複雑なワークロードに対しても柔軟なリソース再配置が可能  潤沢なリソースを活用できるHP Superdome Xは In-Database Analyticsとの相性がよい
  40. 40. Copyright © 2011 NTT DATA Corporation Copyright © 2015 NTT DATA Corporation ※資料中のその他の商品名、会社名、団体名は、各社の商標または登録商標です。

×