クラウドを活用した自由自在なデータ分析
BigData Platform Conference
日本IBM アナリティクス事業部
インフォメーション・アーキテクト
野間 愛一郎
様々な分析のニーズ
ダッシュボード・BIレポート
ビジネスルール
予測分析
コグニティブ
何が起こっているのか?
何が起こりえるのか?
どうすれば最高の結果を成し遂げられるのか?
経験に基づきどう変化していくか?
可視化と検索
どのようなデータがあるのか?
ほとんどのユーザーはここ
4つの例
インフラエンジニア
データサイエンティスト マーケティング
業務担当者
データ量の増加に追いつかない
• 社内でデータウエアハウスを構築済
• まだ1年も経過していないうちに
Businessが急成長
• 構築したデータウエアハウスデータを投入
するもそれを越えるデータ量
• 1年保管を半年保管に変更して運用でカ
バー
• 成長に比例したIT基盤作りをしたいが間に
合わない
• 基盤を整えた途端にBusinessが減速した
ら?
データ量の増加に追いつかない
4
dashDB
PureData for Analytics
(Netezza) • データ・ウエアハウス・サービス
• 短期間で構築
• スモールスタート
• 月額課金
• お使いのデータウエアハウス
• dashDB
dashDB
• RDB(リレーショナル・データベース)
 列指向、イン・メモリー技術を採用
 Netezza に実装される イン・データベース分析機能を実装
 Oracleとの互換性を提供
 ハードウェアのサイジングや物理設計は不要
 ソフトウェアのインストールや運用管理は不要
• パッチの適用やバージョンアップも不要
• バックアップ運用も不要
• チューニング作業も不要
5
• “フルサービス”のクラウド・データウエアハウス
• LOAD and GO - データを用意してから使い始めるまでを早く・簡単に
• データベースだけでなく充実した分析環境をビルトイン
CREATE TABLE
Data LOAD
&
GO!
1. Create Table
2. Load data
AFTER
dashDB
1. データベース設計
データ分割
圧縮
テーブル設計
2. Create Table
3. Load data
4. 索引作成やサマリ表作成
5. 統計情報更新
6. チューニング作業
従来のデータベース環境
データベースデザインやチューニングが必要
Repeat
dashDB : コンセプトはLOAD & GO
データ量の増加に追いつかない
7
dashDB
PureData for Analytics
(Netezza) • データ・ウエアハウス・サービス
• 短期間で構築
• スモールスタート
• 月額課金
DataWorks
ETL
As a Service
• お使いのデータウエアハウス
• dashDB
• dataWorks
Dataworks
8
データソース
Systems of Record
Systems of Engagement
データのクレンジング
および統合
ETL
クラウドでの
データベースサービス
IBM DB2/PDA
Cloudant
Oracle
Other relational
systems
IoT, Social Media
dashDBDataWorks
ETL
As a Service
• データ統合にかかる時間を節約。すぐに利用可能。
• 複数のデータソースへのアクセスを可能にするシンプルなETLツール
• dashDBなどクラウド上のデータベースはもちろん、オンプレミスで稼働する
データベースへもシームレスにアクセス可能
製造現場:多様な属性データを収集・分析したい
• データ分析基盤はあるが、活かされていな
い
• 基盤が古い、代表的な一部のデータしか取
得できていない
• 様々な情報を出力可能ではあるが収集が
出来ていない
→見れば何かが分かりそうだ
• メーカー毎、モデル毎に出力可能なデータ
が異なり、多くの属性を取り扱う
• 出来そうだでは予算化が難しい
dashDB
製造現場:多様な属性データを収集・分析したい
Cloudant
{
“id”:”12345”,
“装置番号”:”AB123”,
“属性”:”ABC123”
}
すべての
属性データを
漏れなく溜める
MapReduceを
利用した集計・
簡易分析
JSONデータを
SQLでも参照したい
JSON
自動変換
• NoSQLデータベース・サービス
• スケーラブル・高可用性
• 短期間で構築
• 月額課金
• Cloudant
• dashDB
Cloudant
11
• 様々なAPIを提供
 シンプルなREST (HTTP) API
 データベース・レプリケーションおよびデータセンター間のレプリケーション
 MapReduce
 Geospatial index (地理情報関数)
 全文検索索引
• モバイルアプリケーション用のデータストア
• クラウド環境に対してオープン
• クラウド版とオンプレミス版の両方を提供
• “フルサービス”のクラウド・NoSQLデータベース
• Operational JSON NoSQL data store
• スケーラブル、高可用性、データセンター間連携が容易
品質部門:セルフサービス分析
• 分析用の高速DWHを全社で構築済
• 大量データ集計は分析は確かに抜群に高
速
• このリソースを自分用、グループ用、部門用
に利用したい
• 別途予算化は難しい
• トライ&エラーで分析のアイデアをいろいろ
試したい
品質部門:セルフサービス分析
13
dashDB
PureData for Analytics
(Netezza)
DataWorks
ETL
As a Service
• お使いのデータウエアハウス
• dashDB
• dataWorks
• SPSSなどお使いのBIツール
• Rの実行環境
• Spark
EXCELや
CSVファイルを
ロード
Spark
As a Service
GraphXやMLib
アドテク / マーケティング
• Webページのユーザーの動きを分析に活
かしたい
• キャンペーンサイトをすぐに構築し、アクセ
スユーザーの属性を取得したい
• ソーシャルでの評判(クチコミ)を取り込みた
い
• ユーザーの位置情報を活かしたエリア・
マーケティングを実施したい
• 外部データを取り込み分析に活用したい
dashDB
アドテク / マーケティング
Cloudant
アプリケーション
ログ
• Cloudant + Geospatial (地理情報)
• dashDB + Geospatial (地理情報)
• Insights for Twitter
• Insight for weather
Insights for WeatherInsights for Twitter
• ソーシャルデータ、オープンデータを活用
• APIエコノミーで短期間にアプリケーションを構築
様々なパーツが揃っています
BigInsights on Cloud
• インメモリーで高速なSparkとHadoopの連携
• ベアメタルのクラスターによるパフォーマンス
• 多様な大量のデータを集計、分析
Cloudant
• 世界規模でクラウドにデータを貯め、アプリケー
ションを迅速に開発するためのNoSQL型DBaaS
• モバイルアプリにおけるデータストアとして最適
• JSON形式データをRDBMS形式のデータに自
動変換
• BLUのカラムナーおよびインメモ
リーによる高いパフォーマンス
• Netezza In-DB アナリティクスによ
る高度な分析
• Cloudant NoSQLからの自動変換・
同期、および、Watson Analyticsと
の連携
分析用 トランザクション用
非構造化データ
構造化データ
Watson Analytics
直観的ビジュアル分析ツール
DataWorks
ETL
DB2 on Cloud
• SoftLayerのプライベート仮想化ノードでの汎用
DBMSを、Bluemix経由でプロビジョニング
• データの処理中、使用中、保存中のいずれでも
ネイティブに暗号化
• DB2の高度な機能をクラウドの柔軟な
課金体系で
dashDB
データベースも用途に応じて選択
DB2 on
Cloud
データの場所を気にする必要はありません。
• アプリケーションは場所を気にする必要はない
• オンプレミスでもクラウドでもアプリケーションからは透過的
最適なパーツを組み合わせて利用
IBMは分析のすべての範囲をカバー
ダッシュボード・BIレポート
ビジネスルール
予測分析
コグニティブ
何が起こっているのか?
何が起こりえるのか?
どうすれば最高の結果を成し遂げられるのか?
経験に基づきどう変化していくか?
IBM Branded Big
Data & Analytics
Platform
BusinessValue
可視化と検索
どのようなデータがあるのか?
IBMのクラウドソリューションは
“すぐに使える”分析環境を
ご提供します。
dashdb.com
cloudant.com
bluemix.net
Security
Services
Cloud
Integration
Services
Mobile
Services
Database
services
Big Data
services
Watson
Services
Web and
application
services
Thank You

クラウドを活用した自由自在なデータ分析