2018/07/19
稲村 勇太
データ分析基盤についての
基礎知識
目次
2
1.基礎情報
2.データ分析基盤の構築事例
基礎情報
3
データ分析基盤とは
4
ビジネスを有利に進めるために
大量のデータを保管・分析する基盤
データ分析基盤
分析
売上 画像・動画データ
外部データ
(天気、SNSなど)
分析
経営企画ユーザ部門
データ分析基盤が必要になっている背景
5
データ分析基盤を構築する主な理由
ビッグデータ処理 データの価値化
PDCA
サイクルの高速化
インターネットの発展や、スマート
デバイス・IoTの普及に伴い、解析
対象となるデータが膨大に増加し
ており、それに耐えうる処理基盤
が必要になっている。
企業内で活用できずに眠っている
データや外部データを組み合わ
せ、ビジネスに役立てるよう「価値
化」するため、各部門のデータを横
通しで解析できる基盤が必要に
なっている。
市場の変化が激しい今、これまで
以上に高速にPDCAサイクルを回
し、業務改善・方針転換をする必
要があり、その意思決定をするた
めの情報分析基盤が求められて
いる。
データ分析基盤の構成要素
6
データ分析基盤は
主に下記のような構成で構築されます
Strage
(データ収集)
DWH
(アドホック分析用)
DataMart
(用途別データ)
ETL
(データ抽出・変換)
アドホッククエリ
BI
構築の流れ
7
①現状データの調査
②方針策定
③データ構築
④運用
既存のデータを調査し、
データの欠陥・重複状況を把握する
調査を踏まえ、データ状態の改善計画の立案/データ整備・
業務改善方法/アプリ改修などの必要な対策を検討する
活用しやすい形にデータを整形(クレンジング)
しながら、分析基盤を構築する
通常業務の中で、
汚れたデータを適宜クレンジングする
コンサルティング
SI
構成例
8
AWSとGCPそれぞれの特性を活かした
ハイブリッド構成
Strage
(データ収集)
DWH
(アドホック分析用)
DataMart
(用途別データ)
ETL
(データ抽出・変換)
アドホッククエリ
BI
AWS S3
AWS Redshift
AWS EMR
AWS RDS
※上記構成はあくまで一例です。
(参考)DataLake/DWH/DataMart
9
DataLake
rawデータを蓄積・保存するストレージ。
将来どんな活用が出来るかは未知数だが、データ
の形式や内容は問わず集積する。
各種ログ
DWH
(DataWareHouse)
データレイクから必要な情報のみを抽出・集約した
データの集まり。アドホック分析の際に用いる。
最終的なデータ利用者のためのデータの集まり。
DWHは大量データを分析には特化しているが、1度
に多くのリクエストに対して同時に処理することには
不向きなので、それぞれの利用者にあわせたデー
タウェアハウスデータの集出・集約結果を登録する
必要がある。
DataMart
(参考)各種パブリッククラウドの機能比較一覧
10
AWS GCP Azure Alibaba Cloud IBM Cloud
Object
Strage
Amazon S3 Cloud Storage
・Azure Strage
・Data Lake Store
OSS
IBM Cloud
Object Storage
- - - - -
ETL
・Amazon Glue
・AWS DataPipeline
・DataFlow
・CloudDataPREP
DataFactory
DataWorks
(DataIntegration)
IBM Data Connect
ETL処理を支援する
フレームワークサービス
ストリーミング処理に強み - 帯域幅の設定まで可能 -
DWH
Amazon Redshift BigQuery Azure SQL Data Warehouse
・HybridDB
・MaxCompute
Db2 Warehouse on Cloud
導入事例が豊富
データを保存するだけなら
ほぼ無料で使える
インスタンスの一時停止が可
能
下記DataWorksとセットで
利用することを想定
超並列処理(MPP)により
スケーラビリティを実現
アドホッククエリ
Amazon Athena BigQuery Azure Data Lake Analytics DataWorks ・Knowledge Catalog
S3に対するクエリも可能 RedShiftより高速に実行可能 -
使いやすいUIもセットで
提供可能な点が強み
厳密な意味でのアドホックサー
ビスではない(BI機能一部)
DataMart
・Amazon RDS
・DynamoDB
・Cloud SQL
・Cloud DataStore
・Azure SQL Database
・DocumentDB
・RDS
・OTS
・Cloudant NoSQL DB
・Compose系
  MySQL
  PostgreSQL
  RabbitMQ
他と大差なし 他と大差なし 他と大差なし 他と大差なし OSS系DBのクラウド版
BI
Amazon QuickSight DataStudio Azure PowerBI
・DataV
・QuickBI
Knowledge Catalog
モバイルでも利用可能 リアルタイム分析には不向き モバイルでも利用可能
QuickBIは主に
アドホック分析に用いる
データストア、
解析の統合環境
IaaSだけでなくPaaSとしての機能比較もした上で
それぞれの特性を活かした基盤構築が必要
データ分析基盤の構築事例
11
無印良品さん-AWS,TreasureData
12
出典は下記URL。2014年の記事なので少し古いです。
http://ascii.jp/elem/000/000/890/890206/index-2.html
https://www.treasuredata.co.jp/customers/muji/
あきんどスシローさん-AWS,TreasureData
13
出典は下記URL。
https://aws.amazon.com/jp/solutions/case-studies/akindo-sushiro/
Rettyさん-AWS,GCP,TreasureData
14
出典は下記URL。
https://speakerdeck.com/chie8842/karamunahuomatutofalsekihon-2
AWS EC2
TreasureDate
AWS RDS
AWS DataPipeline
AWS Kinesis
AWS DataPipeline AWS RDS
GCP Big Query
GCP Cloud Strage
GCP Cloud Strage
fluented
リクルートライフスタイルさん-AWS,GCP
15
出典は下記URL。設計思想も明かしてくれており、参考になります。
https://www.slideshare.net/RecruitLifestyle/ss-84149204
https://engineer.recruit-lifestyle.co.jp/techblog/2017-08-07-how-to-load-data-into-bigquer/
GCP DataFlow
ドリコムさん-AWS,TreasureData
16
出典は下記URL。TD,GCP,AWSの比較もあります。
https://tech.drecom.co.jp/migrate-to-treasure-data-and-aws/
参考URL
17
1)基礎から始めるDB入門セミナー(基礎の基礎)
http://www.oracle.com/technetwork/jp/articles/index-155234-ja.html
2)AWSのデータ分析入門
https://d0.awsstatic.com/events/jp/2017/summit/slide/D4T3-2.pdf
3)分析基盤の導入に不可欠なデータ統合の進め方
https://enterprisezine.jp/dbonline/detail/10085
EOF
18

データ分析基盤について