Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
<#>
12台でやってみた!
DWHソフトウェアアプライアンス
Db2 Warehouse
~ DWH + Docker +Spark 統合による機械学習基盤としての価値 ~
2017年9月7日
日本アイ・ビー・エム 榎本康孝
1
本日お伝えしたい内容
Db2 Warehouse 概要
Db2 Warehouse 機械学習基盤としての価値
Db2 Warehouse を実際に使ってみてどうだったか?
(インサイトテクノロジー 平間様 検証結果のご紹介)
まとめ & 評価版...
What is Db2 Warehouse ?
Db2 Warehouse
Container
Download and Deploy
Any Public and Private Cloud
Elastic Scalability
・最大60...
What is Db2 Warehouse ?
Write Once, Run Anywhere
・Common SQL Engine, Netezza & Oracle互換機能
・Dockerコンテナポータビリティ
・プライベートクラウド、マ...
Elastic Scalability & Auto Scaling
最小1ノード1コアから最大60ノードまで柔軟に拡張可能な
並列アーキテクチャより、DWH基盤の拡張、統合の要件に
柔軟に対応可能
後ほど技術検証結果にて3~12ノード構成を使...
© 2017 IBM Corporation
Db2 Warehouse & Spark統合による
機械学習処理基盤としての価値
6
© 2017 IBM Corporation
分析:データの理解からルールの理解
•売上推移の把握
•特異な動きの発見
•詳細な見える化
BIレポーティング
非定型クエリ
データのビジネスへの貢献度
7
© 2017 IBM Corporation8
分析:データの理解からルールの理解
•売上推移の把握
•特異な動きの発見
•詳細な見える化
BIレポーティング
非定型クエリ
データマイニング
予測モデル
分析の高速化
最適化
•高利益商品のドラ...
© 2017 IBM Corporation
高度な分析の適用(機械学習的手法の例)
9
標準SQLを超える分析機能/表現が必要
© 2017 IBM Corporation
機械学習を利用したデータ分析アプローチ例
データ
準備
モデル
作成
モデルの
適用評価
予測に活用
課題解決に対して明示的なステップをプログラムするのではなく、統計的、探索的な
手法でデータからパ...
© 2017 IBM Corporation
Db2 Warehouse Spark統合環境
Db2 Warehouse サーバー
Db2 Warehouse コンテナ
スケーラブルクラスタファイルシステム
テキスト
ファイル
並列分散処理、M...
© 2017 IBM Corporation
Db2 Warehouse ホストサーバー
Db2 Warehouse ホストサーバー
Db2 Warehouse Spark統合 機械学習基盤の特長
②.データ準備の高速化 (SQL predic...
© 2017 IBM Corporation
DB
Coordinator
Spark Driver
Jupyter Server
Data
Partition
s
Worker
DB
Data
Nod
es
Cluster Mgr
Maste...
© 2017 IBM Corporation
Db2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouse サーバー
Db2 Warehouse コンテナ
・非構造化デー...
© 2017 IBM Corporation
Db2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouseサーバー
・Db2 Warehouse & Sparkストリーミ...
© 2017 IBM Corporation
Db2 Warehouse Spark統合メリットのまとめ
・DWHとSpark統合により、構造化、非構造化データに対する
機械学習データ分析環境を迅速にセットアップ、スモールスタート可能。
・DW...
© 2017 IBM Corporation
Db2 Warehouse 検証結果ご紹介
12台でやってみた!
DWHソフトウェアアプライアンス Db2 Warehouse
~ DWH + Docker +Spark 統合による機械学習基盤とし...
© 2017 IBM Corporation
セッションのまとめ
・DockerコンテナベースのDWHソフトウェアアプライアンスとして、
高速性、拡張性、簡易性を備え、場所を選ばず配置、移動可能。
(Private Cloud , Hybrid...
© 2017 IBM Corporation
【参考】Db2 Warehouse 評価版の使用
Db2 Warehouse 評価版をDocker Hubから入手するには、以下の手順を実施してください。
(注:評価版試用期間は90日間です。)
1...
© 2017 IBM Corporation
【参考】Db2 Warehouse(旧dashDB Local) – Spark Demo動画
dashDB Local In-DB Analytics for Spark Demo Video
h...
© 2017 IBM Corporation
【参考】Db2 Warehouse(旧dashDB Local) –Demo動画
dashDB Local for private cloud and SDEs Demo Video
https:/...
© 2017 IBM Corporation
【参考】Db2 Warehouse(旧dashDB Local) 導入ガイド
Db2 Warehouse 評価版 シングル構成 参考導入手順書
https://www-01.ibm.com/mark...
© 2017 IBM Corporation
数クリックでお手軽に試したいときはこちら
利用上の注意/制限:開発用途のみに使用ください/コミュニティサポートの製品です
Db2を始めませんか?
Download & Go! たった15分でお手元に...
Upcoming SlideShare
Loading in …5
×

[db tech showcase Tokyo 2017] E35: 12台でやってみた!DWHソフトウェアアプライアンス Db2 Warehouse ~ DWH + Docker +Spark 統合による機械学習基盤としての価値 ~ by 日本アイ・ビー・エム株式会社 榎本康孝

164 views

Published on

Db2 Warehouse (旧名:dashDB Local)は、Dockerコンテナベースで提供され、DWHとSparkを統合した新しいコンセプトを持った製品です。本セッションでは、「Db2 Warehouse 実機検証やってみた! シリーズ」として、ネットワールド様、インサイトテクノロジー様が実施されたDb2 Warehouse 検証結果のご紹介に加え、DWH基盤だけではない、機械学習分析基盤としてのDb2 Warehouseの価値をご紹介します。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[db tech showcase Tokyo 2017] E35: 12台でやってみた!DWHソフトウェアアプライアンス Db2 Warehouse ~ DWH + Docker +Spark 統合による機械学習基盤としての価値 ~ by 日本アイ・ビー・エム株式会社 榎本康孝

  1. 1. <#> 12台でやってみた! DWHソフトウェアアプライアンス Db2 Warehouse ~ DWH + Docker +Spark 統合による機械学習基盤としての価値 ~ 2017年9月7日 日本アイ・ビー・エム 榎本康孝 1
  2. 2. 本日お伝えしたい内容 Db2 Warehouse 概要 Db2 Warehouse 機械学習基盤としての価値 Db2 Warehouse を実際に使ってみてどうだったか? (インサイトテクノロジー 平間様 検証結果のご紹介) まとめ & 評価版のご紹介 2
  3. 3. What is Db2 Warehouse ? Db2 Warehouse Container Download and Deploy Any Public and Private Cloud Elastic Scalability ・最大60ノードまで拡張可能なスケーラビリティ ・スケールアップ & アウト自動チューニング ・データベースサイズの柔軟な拡張 3 Load and Go ・コンテナをデプロイ後、直ぐにDB利用可能。予め分析用途に 最適化され、物理設計、インデックスチューニング不要。 データロード後すぐに分析できる簡易性。 High Speed & Machine Learning ・インメモリカラムストア & MPPアーキテクチャ ・列圧縮、検索対象外データの読み飛ばし(データスキッピング) ・DWH & Spark統合による機械学習処理の効率化
  4. 4. What is Db2 Warehouse ? Write Once, Run Anywhere ・Common SQL Engine, Netezza & Oracle互換機能 ・Dockerコンテナポータビリティ ・プライベートクラウド、マルチクラウド対応 Data Virtualization & Move ・FluidQueryによるRDB, Hadoopとのデータ連携 ・DB Migrationによる高速データ移動 (Netezza->Db2 Wh, Db2 Wh ->Db2 Wh) Flexible Price & Low TCO ・クラウド利用を想定したVPC単位の月額ライセンス課金 ・開発、運用管理コスト低減によるTCO低減 1月 12月 Oracle Netezza SQLserver Db2 Family & Hadoop Powered by FluidQuery 4
  5. 5. Elastic Scalability & Auto Scaling 最小1ノード1コアから最大60ノードまで柔軟に拡張可能な 並列アーキテクチャより、DWH基盤の拡張、統合の要件に 柔軟に対応可能 後ほど技術検証結果にて3~12ノード構成を使用した Db2 Warehouse 検証結果をご紹介いたします。 EXP3524 8 9 16 17 System x3650 M40 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 System x3650 M40 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 EXP3524 8 9 16 17 SMP構成 MPP構成 5
  6. 6. © 2017 IBM Corporation Db2 Warehouse & Spark統合による 機械学習処理基盤としての価値 6
  7. 7. © 2017 IBM Corporation 分析:データの理解からルールの理解 •売上推移の把握 •特異な動きの発見 •詳細な見える化 BIレポーティング 非定型クエリ データのビジネスへの貢献度 7
  8. 8. © 2017 IBM Corporation8 分析:データの理解からルールの理解 •売上推移の把握 •特異な動きの発見 •詳細な見える化 BIレポーティング 非定型クエリ データマイニング 予測モデル 分析の高速化 最適化 •高利益商品のドライバは? •LTV最大化のキーファクタは? •データ活用の最大化 •リアルタイムデータ データのビジネスへの貢献度
  9. 9. © 2017 IBM Corporation 高度な分析の適用(機械学習的手法の例) 9 標準SQLを超える分析機能/表現が必要
  10. 10. © 2017 IBM Corporation 機械学習を利用したデータ分析アプローチ例 データ 準備 モデル 作成 モデルの 適用評価 予測に活用 課題解決に対して明示的なステップをプログラムするのではなく、統計的、探索的な 手法でデータからパターンの発見や予測を行い、課題解決を図るアプローチを取る。 分析に必要な時間の大部分(80%)がデータ準備を占める 大量データに対しても、効率的かつ素早くデータを探索、加工、 抽出、モデル化、評価適用の試行錯誤の実施が求められる ビジネス課題解決に向けた仮説の構築 評価を元にさらなる改善を行う 10
  11. 11. © 2017 IBM Corporation Db2 Warehouse Spark統合環境 Db2 Warehouse サーバー Db2 Warehouse コンテナ スケーラブルクラスタファイルシステム テキスト ファイル 並列分散処理、MLlib 非構造化データ処理 構造化データ蓄積、 分析、加工、抽出 Rstudio Container Jupyter Notebook Container ※Db2 Warehouse用に カスタマイズされた Jupyter Notebook コンテナを利用可能 Db2 Warehouseコンテナからデータを移動させないで分析処理を実施 MPP DWHとSpark統合により、機械学習データ分析処理を効率化。 Db2 Warehouse Spark 統合構成イメージ図 11 構造化データ 機 械 学 習 データ サイエンティスト BI/ビジネスアナリスト BIツール 構造化データを対象 とした分析レポート 仮説検証型の インタラクティブな データ探索、分析 SQLベースアプリ Webコンソール O L A P D W H
  12. 12. © 2017 IBM Corporation Db2 Warehouse ホストサーバー Db2 Warehouse ホストサーバー Db2 Warehouse Spark統合 機械学習基盤の特長 ②.データ準備の高速化 (SQL predicate push down) データの加工、フィルタ処理をDB側にSQL文としてオフロード 最も時間のかかるデータ準備作業をMPP DWH処理性能で高速化 ③.データ準備、モデル作成、適用評価作業の高速化 ・DWH & Spark間のデータ転送を内部ソケット通信で高速化 ・Spark PartitionとMPP DWH Partitionが連動して分散並列処理を実施 ④.多彩な方法でSpark機械学習処理を実行可能 ・予め実装されたAnalyticsプロシージャによるSpark MLlibの利用 ・REST API/SQL/BIツール/OSシェル等、各種方法から呼び出し可能 ①.DWHとSpark環境をDocker Runコマンドで 簡単にセットアップできる ⑤.SparkアプリケーションをEnd-to-Endで管理 ・Juypter Notebookで作成したSparkアプリケーションを1クリックでデプロイ。 ・Webコンソールで実行中のSparkアプリケーションを監視可能 Db2 Warehouse ホストサーバー Db2 Warehouse コンテナ 並列分散処理 分析フレームワーク 構造化データ 蓄積、分析、検索 SQL push down 結果セット抽出 12
  13. 13. © 2017 IBM Corporation DB Coordinator Spark Driver Jupyter Server Data Partition s Worker DB Data Nod es Cluster Mgr Master Executor Worker Executor Worker Executor Worker Executor ML SP & Submit SP Client App DB Data Nod es DB Data Nod es DB Data Nod es DB Data Nod es DB Data Nod es DB Data Nod es DB Data Nod es Data Partition s Data Partitions Data Partition s Data Partition s Data Partitions Data Partition s Data Partition s Data Partitions Data Partition s Data Partition s Data Partitions DB Data Nodes DB Data Nodes DB Data Nodes DB Data Nodes Spark Kernels Head Node 参考: Db2 Warehouse with Spark ハイレベルアーキテクチャ Data Node [Spark Apps実行方法] 1.Spark-submit.sh 2.Submit Stored Procedure 3.ML Stored Procedure 4.REST API 5.Jupyter Notebook Data Partition s DB Data Nod es DB Data Nod es Data Partition s Data Partitions DB Data Nodes Worker Executor Db2 Warehouse Web Console 13
  14. 14. © 2017 IBM Corporation Db2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouse サーバー Db2 Warehouse コンテナ ・非構造化データの持つ複雑な特徴をSparkで抽出、変換、DWHへそのままロード ・構造化データとしてBI用途利用、構造化したデータから機械学習処理への応用 Cloudant (JSON/NoSQL DB) Db2 Warehouse Spark統合 機械学習基盤の活用例 半構造化、非構造化データ スケーラブルクラスタファイルシステム テキスト ファイル Object Storage (テキストファイル等) 構造化データ 非構造化データETL処理構造化データ蓄積、分析 データの探索、分析 14 E T L D W H ETL BI/ビジネスアナリスト BIツール 構造化データを対象 とした分析レポート SQLベースアプリ Webコンソール O L A P
  15. 15. © 2017 IBM Corporation Db2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouse サーバーDb2 Warehouseサーバー ・Db2 Warehouse & Sparkストリーミングを活用したIoTデータのリアルタイム分析 ・データ抽出、変換、格納、可視化のためのデータ基盤を単一基盤で実現 Db2 Warehouse コンテナ Sparkストリーミング+Db2 Warehouseによる、IoTリアルタイムデータ分析 Db2 Warehouse Spark統合 機械学習基盤の活用例 Apache Kafka データキューイング スケーラブルクラスタファイルシステム テキスト ファイル Spark Stream処理データ蓄積、分析、抽出 15 S T R E A M デ | タ 収 集 データの探索、分析 BI/ビジネスアナリスト BIツール 構造化データを対象 とした分析レポート SQLベースアプリ Webコンソール D W H O L A P
  16. 16. © 2017 IBM Corporation Db2 Warehouse Spark統合メリットのまとめ ・DWHとSpark統合により、構造化、非構造化データに対する 機械学習データ分析環境を迅速にセットアップ、スモールスタート可能。 ・DWHに蓄積された大量データから効率的かつスピーディに データを準備し、機械学習の試行処理を実施できる仕組みを提供。 Db2 Warehouse評価版を ぜひお試しください。 16
  17. 17. © 2017 IBM Corporation Db2 Warehouse 検証結果ご紹介 12台でやってみた! DWHソフトウェアアプライアンス Db2 Warehouse ~ DWH + Docker +Spark 統合による機械学習基盤としての価値 ~ 17
  18. 18. © 2017 IBM Corporation セッションのまとめ ・DockerコンテナベースのDWHソフトウェアアプライアンスとして、 高速性、拡張性、簡易性を備え、場所を選ばず配置、移動可能。 (Private Cloud , Hybrid Data Warehouse 用途で強み) ・DWHとSpark統合により、構造化、非構造化データに対する 機械学習環境を迅速にセットアップ、スモールスタートで開始できる。 ・DWHに蓄積された大量データを活用した機械学習処理を効率的に 実施する仕組みを提供 Db2 Warehouse評価版を ぜひお試しください。 18
  19. 19. © 2017 IBM Corporation 【参考】Db2 Warehouse 評価版の使用 Db2 Warehouse 評価版をDocker Hubから入手するには、以下の手順を実施してください。 (注:評価版試用期間は90日間です。) 1. Docker HubサイトにてDocker IDの作成を行います。 https://hub.docker.com/ 2. Docker Hubにログイン後、右上のプルダウンメニューから Settingを選択し、初期パスワードを変更します。 3. Db2 Warehouseのサイトにアクセスし「Start Your Free Trial」を選択します。 https://www.ibm.com/ms-en/marketplace/db2-warehouse 4. IBM IDとパスワードを入力します。 (IBM IDをまだ作成していない場合は、IBM IDを作成してください) 5. Docker IDを登録すると、24時間以内に承認メールが届きます。 その後、Docker Hubからのpull(ダウンロード)が可能になります。 19
  20. 20. © 2017 IBM Corporation 【参考】Db2 Warehouse(旧dashDB Local) – Spark Demo動画 dashDB Local In-DB Analytics for Spark Demo Video https://www.youtube.com/playlist?list=PLQ6CoZ-HctoUFVPWnX4qdkQFMvu_heqE7 20
  21. 21. © 2017 IBM Corporation 【参考】Db2 Warehouse(旧dashDB Local) –Demo動画 dashDB Local for private cloud and SDEs Demo Video https://www.youtube.com/playlist?list=PLHML2rQ3S7uZu4qFpApwUdERnx8VJO6OR 21
  22. 22. © 2017 IBM Corporation 【参考】Db2 Warehouse(旧dashDB Local) 導入ガイド Db2 Warehouse 評価版 シングル構成 参考導入手順書 https://www-01.ibm.com/marketing/iwm/dre/signup?source=mrs-form-11354&S_PKG=ov56016&lang=ja_JP Db2 Warehouse Knowledge Center https://www.ibm.com/support/knowledgecenter/en/SS6NHC/com.ibm.swg.im.dashdb.kc.doc/welcome.html 22
  23. 23. © 2017 IBM Corporation 数クリックでお手軽に試したいときはこちら 利用上の注意/制限:開発用途のみに使用ください/コミュニティサポートの製品です Db2を始めませんか? Download & Go! たった15分でお手元にDb2がインストール http://ibm.biz/db2dev_com http://ibm.biz/db2dev_c 他社のデータベース含めDBの知識がある方にオススメです 全機能が無償でじっくり試せます 23

×