Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1 
トレジャーデータ株式会社 
2014/09 
Takahiro Inoue (Chief Data Scientist) 
taka@treasure-data.com 
トレジャーデータのバッチクエリと 
アドホッククエリを理理解する
21 
Agenda 
1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 
2. バッチクエリ型のアーキテクチャ 
2-1. バッチクエリ × Metric Insights 
2-2. バッチクエリ × Tablea...
3 
1. バッチクエリ × アドホッククエリ
4 
Treasure Data Service 概要図 
クエリ結果 
⾃自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage...
5 
Treasure Data Service 概要図 
クエリ結果 
⾃自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage...
6 
バッチ型 × アドホック型 
バッチ型クエリ(Hive) アドホック型クエリ(Presto) 
言語 • HiveQL (SQL Like) • Prestgres (SQL Like) 
ケース • 大規模な中間処理データを受渡が生 
...
7 
計算モデルで⾒見見るクエリエンジンの違い
8 
分析スキームで⾒見見るクエリエンジンの違い 
(分析のPDCAに必要な2つの分析エンジンを両⽅方とも提供) 
Plan 
(施策設計) 
Check 
(効果測定) 
Do 
(施策実⾏行行) 
Act 
(原因探索索) 
バッチ型分析 ...
9 
管理理コンソールからのクエリ実⾏行行イメージ
10 
(a). バッチクエリ(Hive)の実⾏行行
11 
ノードの起動/ノード間のデータの受け渡し 
がどんな⼩小さい集計でも発⽣生する
12 
(b). アドホッククエリ(Presto)の実⾏行行
13 
アドホック型→MPPによる⾼高速レスポンスが可能
14 
トレジャーで可能な分析アーキテクチャ 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Inside DB 
Direct 
Data mart ...
15 
2. バッチ型のアーキテクチャ
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
KPI Inside DB 
Metric Insights  
etc 
全件データ 
バッチ JDBC...
17 
2-‐‑‒1. バッチクエリ × Metric Insights
18 
2-‐‑‒2. バッチクエリ × Tableau Server 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
c 
Direct 
Table...
19 
2-‐‑‒3. バッチクエリ × Redshift 
× Tableau Server/Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/T...
20 
2-‐‑‒4(a). バッチクエリ × DMP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課⾦金金ログ 
招待ログ 
...
21 
2-‐‑‒4(b). バッチクエリ × DMP × DSP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課⾦金金ログ 
...
22 
3. アドホック型のアーキテクチャ
23 
3. アドホッククエリ × データマート 
(データマートをどこに置くかの違い) 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasur...
24 
3-‐‑‒1. アドホッククエリ × Chartio 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS ...
25 
3-‐‑‒1. アドホッククエリ × Chartio
26 
3-‐‑‒2. アドホッククエリ × Tableau Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Age...
27 
3-‐‑‒2. アドホッククエリ × Tableau Desktop
28 
3-‐‑‒3. アドホッククエリ × DMP 
データ収集 データ保管 データ分析 
ユーザーの行動履歴ログで 
セグメントテーブルを更更新 
バッチ 
全件データ 
ログインログ 
課⾦金金ログ 
招待ログ 
ユーザー 
⾏行行動 
...
Upcoming SlideShare
Loading in …5
×

トレジャーデータのバッチクエリとアドホッククエリを理解する

8,235 views

Published on

トレジャーデータのバッチクエリ,アドホッククエリの紹介です。ケースや可視化ツールに応じて柔軟に使い分けることが肝要です。

Published in: Technology

トレジャーデータのバッチクエリとアドホッククエリを理解する

  1. 1. 1 トレジャーデータ株式会社 2014/09 Takahiro Inoue (Chief Data Scientist) taka@treasure-data.com トレジャーデータのバッチクエリと アドホッククエリを理理解する
  2. 2. 21 Agenda 1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 2. バッチクエリ型のアーキテクチャ 2-1. バッチクエリ × Metric Insights 2-2. バッチクエリ × Tableau Server 2-3. バッチクエリ × Redshift × Tableau Desktop/Server 2-4 (a). バッチクエリ × DMP 2-4 (b). バッチクエリ × DMP × DSP 3. アドホッククエリ型のアーキテクチャ 3-1. アドホッククエリ × Chartio 3-2. アドホッククエリ × Tableau Desktop 3-3. アドホッククエリ × DMP
  3. 3. 3 1. バッチクエリ × アドホッククエリ
  4. 4. 4 Treasure Data Service 概要図 クエリ結果 ⾃自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化・共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  5. 5. 5 Treasure Data Service 概要図 クエリ結果 ⾃自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化・共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  6. 6. 6 バッチ型 × アドホック型 バッチ型クエリ(Hive) アドホック型クエリ(Presto) 言語 • HiveQL (SQL Like) • Prestgres (SQL Like) ケース • 大規模な中間処理データを受渡が生 じる並列処理に対して • 大規模なインプットでも,中間処理・結果 データが小さくて済む並列処理に対して 計算モデル • Map Reduce • MPP (Massively Parallel Processor) 業務領域 • KPIダッシュボード • 定型レポーティング • インタラクティブなデータ処理 • 特定のユーザーの履歴抽出などのサポー ティング業務 相性の良い  可視化ツール • Metric Insights • Tableau Server • Chartio • Tableau Desktop トレジャー  料金プラン • Basic Plan • Premium Plan
  7. 7. 7 計算モデルで⾒見見るクエリエンジンの違い
  8. 8. 8 分析スキームで⾒見見るクエリエンジンの違い (分析のPDCAに必要な2つの分析エンジンを両⽅方とも提供) Plan (施策設計) Check (効果測定) Do (施策実⾏行行) Act (原因探索索) バッチ型分析 + KPIダッシュボード ・チューニング済Hadoop ・⼤大量量データが得意 KPI ・定義済指標の最新データ表⽰示 ・メンバー全員で共有 アドホック型分析 + BIツール / 統計ツール ・Treasure Query Accelerator ・⾮非常に⾼高速 ・任意の軸でアドホックに分析 ・原因の可視化
  9. 9. 9 管理理コンソールからのクエリ実⾏行行イメージ
  10. 10. 10 (a). バッチクエリ(Hive)の実⾏行行
  11. 11. 11 ノードの起動/ノード間のデータの受け渡し がどんな⼩小さい集計でも発⽣生する
  12. 12. 12 (b). アドホッククエリ(Presto)の実⾏行行
  13. 13. 13 アドホック型→MPPによる⾼高速レスポンスが可能
  14. 14. 14 トレジャーで可能な分析アーキテクチャ Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Inside DB Direct Data mart CSV / TSV Raw SQL KPI BIツール等 BIツール等 統計ツール等 ブラウザ SQ L データマート CSV / TSV Metric Insights etc Tableau, MotionBoard SAS, SPSS, R etc… 全件データ データマート バッチ バッチ アドホック アドホック JDBC/ ODBC REST API JDBC/ ODBC REST API バッチ バッチ Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial Power BI, Excel, QlikView データ収集 データ保管 データ分析
  15. 15. 15 2. バッチ型のアーキテクチャ
  16. 16. Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV KPI Inside DB Metric Insights etc 全件データ バッチ JDBC/ ODBC REST API Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 16 2-‐‑‒1. バッチクエリ × Metric Insights
  17. 17. 17 2-‐‑‒1. バッチクエリ × Metric Insights
  18. 18. 18 2-‐‑‒2. バッチクエリ × Tableau Server Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV c Direct Tableau Server 全件データ バッチ Result Push Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Tableau Server 上の ソースデータを更更新
  19. 19. 19 2-‐‑‒3. バッチクエリ × Redshift × Tableau Server/Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 データマート BIツール等 Data mart 全件データ バッチ Redshift
  20. 20. 20 2-‐‑‒4(a). バッチクエリ × DMP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課⾦金金ログ 招待ログ ユーザー Data Mart ⾏行行動 ユーザーの セグメント情報
  21. 21. 21 2-‐‑‒4(b). バッチクエリ × DMP × DSP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課⾦金金ログ 招待ログ DSP ユーザー KV Store 広告配信 ⾏行行動 ユーザーの セグメント情報
  22. 22. 22 3. アドホック型のアーキテクチャ
  23. 23. 23 3. アドホッククエリ × データマート (データマートをどこに置くかの違い) Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Direct Data mart BIツール等 データマート BIツール等 Tableau, Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API バッチ Redshift × Tableau アドホック
  24. 24. 24 3-‐‑‒1. アドホッククエリ × Chartio Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  25. 25. 25 3-‐‑‒1. アドホッククエリ × Chartio
  26. 26. 26 3-‐‑‒2. アドホッククエリ × Tableau Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Tableau 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  27. 27. 27 3-‐‑‒2. アドホッククエリ × Tableau Desktop
  28. 28. 28 3-‐‑‒3. アドホッククエリ × DMP データ収集 データ保管 データ分析 ユーザーの行動履歴ログで セグメントテーブルを更更新 バッチ 全件データ ログインログ 課⾦金金ログ 招待ログ ユーザー ⾏行行動 Segment Table アドホック

×