1 
トレジャーデータ株式会社 
2014/09 
Takahiro Inoue (Chief Data Scientist) 
taka@treasure-data.com 
トレジャーデータのバッチクエリと 
アドホッククエリを理理解する
21 
Agenda 
1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 
2. バッチクエリ型のアーキテクチャ 
2-1. バッチクエリ × Metric Insights 
2-2. バッチクエリ × Tableau Server 
2-3. バッチクエリ × Redshift × Tableau Desktop/Server 
2-4 (a). バッチクエリ × DMP 
2-4 (b). バッチクエリ × DMP × DSP 
3. アドホッククエリ型のアーキテクチャ 
3-1. アドホッククエリ × Chartio 
3-2. アドホッククエリ × Tableau Desktop 
3-3. アドホッククエリ × DMP
3 
1. バッチクエリ × アドホッククエリ
4 
Treasure Data Service 概要図 
クエリ結果 
⾃自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage 
Webログ 
Appログ 
センサー 
RDBMS 
CRM 
ERP 
ストリーミング 
ログコレクター 
Treasure Agent 
並列列バルク 
アップローダー 
TD Toolbelt 
バッチ 
型分析 
アドホック 
型分析 
データ集計 
データ可視化・共有 
KPI 
Metric Insights, etc. 
分析ツール連携 
Tableau, 
Motion Board(予定) etc. 
他製品連携 
SQL, Pig 
RDBMS, Google Docs, 
AWS S3, FTP Server, 
etc. 
POS 
分析エンジン 
Hadoop, Treasure Query Accelerator 
データ抽出 
REST API 
ODBC/JDBC 
(SQL, Pig)
5 
Treasure Data Service 概要図 
クエリ結果 
⾃自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage 
Webログ 
Appログ 
センサー 
RDBMS 
CRM 
ERP 
ストリーミング 
ログコレクター 
Treasure Agent 
並列列バルク 
アップローダー 
TD Toolbelt 
バッチ 
型分析 
アドホック 
型分析 
データ集計 
データ可視化・共有 
KPI 
Metric Insights, etc. 
分析ツール連携 
Tableau, 
Motion Board(予定) etc. 
他製品連携 
SQL, Pig 
RDBMS, Google Docs, 
AWS S3, FTP Server, 
etc. 
POS 
分析エンジン 
Hadoop, Treasure Query Accelerator 
データ抽出 
REST API 
ODBC/JDBC 
(SQL, Pig)
6 
バッチ型 × アドホック型 
バッチ型クエリ(Hive) アドホック型クエリ(Presto) 
言語 • HiveQL (SQL Like) • Prestgres (SQL Like) 
ケース • 大規模な中間処理データを受渡が生 
じる並列処理に対して 
• 大規模なインプットでも,中間処理・結果 
データが小さくて済む並列処理に対して 
計算モデル • Map Reduce • MPP (Massively Parallel Processor) 
業務領域 • KPIダッシュボード 
• 定型レポーティング 
• インタラクティブなデータ処理 
• 特定のユーザーの履歴抽出などのサポー 
ティング業務 
相性の良い 
 可視化ツール 
• Metric Insights 
• Tableau Server 
• Chartio 
• Tableau Desktop 
トレジャー 
 料金プラン • Basic Plan • Premium Plan
7 
計算モデルで⾒見見るクエリエンジンの違い
8 
分析スキームで⾒見見るクエリエンジンの違い 
(分析のPDCAに必要な2つの分析エンジンを両⽅方とも提供) 
Plan 
(施策設計) 
Check 
(効果測定) 
Do 
(施策実⾏行行) 
Act 
(原因探索索) 
バッチ型分析 
+ 
KPIダッシュボード 
・チューニング済Hadoop 
・⼤大量量データが得意 
KPI 
・定義済指標の最新データ表⽰示 
・メンバー全員で共有 
アドホック型分析 
+ 
BIツール / 統計ツール 
・Treasure Query Accelerator 
・⾮非常に⾼高速 
・任意の軸でアドホックに分析 
・原因の可視化
9 
管理理コンソールからのクエリ実⾏行行イメージ
10 
(a). バッチクエリ(Hive)の実⾏行行
11 
ノードの起動/ノード間のデータの受け渡し 
がどんな⼩小さい集計でも発⽣生する
12 
(b). アドホッククエリ(Presto)の実⾏行行
13 
アドホック型→MPPによる⾼高速レスポンスが可能
14 
トレジャーで可能な分析アーキテクチャ 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Inside DB 
Direct 
Data mart 
CSV / TSV 
Raw SQL 
KPI 
BIツール等 
BIツール等 
統計ツール等 
ブラウザ 
SQ 
L 
データマート 
CSV / TSV 
Metric Insights  
etc 
Tableau, 
MotionBoard 
SAS, SPSS,  
R etc… 
全件データ 
データマート 
バッチ 
バッチ 
アドホック 
アドホック 
JDBC/ 
ODBC 
REST API 
JDBC/ 
ODBC 
REST API 
バッチ 
バッチ 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
Power BI, 
Excel, 
QlikView 
データ収集 データ保管 データ分析
15 
2. バッチ型のアーキテクチャ
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
KPI Inside DB 
Metric Insights  
etc 
全件データ 
バッチ JDBC/ 
ODBC 
REST API 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
16 
2-‐‑‒1. バッチクエリ × Metric Insights
17 
2-‐‑‒1. バッチクエリ × Metric Insights
18 
2-‐‑‒2. バッチクエリ × Tableau Server 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
c 
Direct 
Tableau 
Server 
全件データ 
バッチ 
Result Push 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
Tableau Server 上の 
ソースデータを更更新
19 
2-‐‑‒3. バッチクエリ × Redshift 
× Tableau Server/Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
データマート BIツール等 Data mart 全件データ 
バッチ 
Redshift
20 
2-‐‑‒4(a). バッチクエリ × DMP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課⾦金金ログ 
招待ログ 
ユーザー 
Data Mart 
⾏行行動 
ユーザーの 
セグメント情報
21 
2-‐‑‒4(b). バッチクエリ × DMP × DSP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課⾦金金ログ 
招待ログ 
DSP 
ユーザー 
KV Store 
広告配信 
⾏行行動 
ユーザーの 
セグメント情報
22 
3. アドホック型のアーキテクチャ
23 
3. アドホッククエリ × データマート 
(データマートをどこに置くかの違い) 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
Direct 
Data mart 
BIツール等 
データマート BIツール等 
Tableau, 
Chartio 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
バッチ 
Redshift 
× Tableau 
アドホック
24 
3-‐‑‒1. アドホッククエリ × Chartio 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
BIツール等 Direct 
Chartio 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
アドホック
25 
3-‐‑‒1. アドホッククエリ × Chartio
26 
3-‐‑‒2. アドホッククエリ × Tableau Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
BIツール等 Direct 
Tableau 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
アドホック
27 
3-‐‑‒2. アドホッククエリ × Tableau Desktop
28 
3-‐‑‒3. アドホッククエリ × DMP 
データ収集 データ保管 データ分析 
ユーザーの行動履歴ログで 
セグメントテーブルを更更新 
バッチ 
全件データ 
ログインログ 
課⾦金金ログ 
招待ログ 
ユーザー 
⾏行行動 
Segment Table 
アドホック

トレジャーデータのバッチクエリとアドホッククエリを理解する

  • 1.
    1 トレジャーデータ株式会社 2014/09 Takahiro Inoue (Chief Data Scientist) taka@treasure-data.com トレジャーデータのバッチクエリと アドホッククエリを理理解する
  • 2.
    21 Agenda 1.バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 2. バッチクエリ型のアーキテクチャ 2-1. バッチクエリ × Metric Insights 2-2. バッチクエリ × Tableau Server 2-3. バッチクエリ × Redshift × Tableau Desktop/Server 2-4 (a). バッチクエリ × DMP 2-4 (b). バッチクエリ × DMP × DSP 3. アドホッククエリ型のアーキテクチャ 3-1. アドホッククエリ × Chartio 3-2. アドホッククエリ × Tableau Desktop 3-3. アドホッククエリ × DMP
  • 3.
    3 1. バッチクエリ× アドホッククエリ
  • 4.
    4 Treasure DataService 概要図 クエリ結果 ⾃自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化・共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  • 5.
    5 Treasure DataService 概要図 クエリ結果 ⾃自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化・共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  • 6.
    6 バッチ型 ×アドホック型 バッチ型クエリ(Hive) アドホック型クエリ(Presto) 言語 • HiveQL (SQL Like) • Prestgres (SQL Like) ケース • 大規模な中間処理データを受渡が生 じる並列処理に対して • 大規模なインプットでも,中間処理・結果 データが小さくて済む並列処理に対して 計算モデル • Map Reduce • MPP (Massively Parallel Processor) 業務領域 • KPIダッシュボード • 定型レポーティング • インタラクティブなデータ処理 • 特定のユーザーの履歴抽出などのサポー ティング業務 相性の良い  可視化ツール • Metric Insights • Tableau Server • Chartio • Tableau Desktop トレジャー  料金プラン • Basic Plan • Premium Plan
  • 7.
  • 8.
    8 分析スキームで⾒見見るクエリエンジンの違い (分析のPDCAに必要な2つの分析エンジンを両⽅方とも提供) Plan (施策設計) Check (効果測定) Do (施策実⾏行行) Act (原因探索索) バッチ型分析 + KPIダッシュボード ・チューニング済Hadoop ・⼤大量量データが得意 KPI ・定義済指標の最新データ表⽰示 ・メンバー全員で共有 アドホック型分析 + BIツール / 統計ツール ・Treasure Query Accelerator ・⾮非常に⾼高速 ・任意の軸でアドホックに分析 ・原因の可視化
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
    14 トレジャーで可能な分析アーキテクチャ Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Inside DB Direct Data mart CSV / TSV Raw SQL KPI BIツール等 BIツール等 統計ツール等 ブラウザ SQ L データマート CSV / TSV Metric Insights etc Tableau, MotionBoard SAS, SPSS, R etc… 全件データ データマート バッチ バッチ アドホック アドホック JDBC/ ODBC REST API JDBC/ ODBC REST API バッチ バッチ Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial Power BI, Excel, QlikView データ収集 データ保管 データ分析
  • 15.
  • 16.
    Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV KPI Inside DB Metric Insights etc 全件データ バッチ JDBC/ ODBC REST API Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 16 2-‐‑‒1. バッチクエリ × Metric Insights
  • 17.
  • 18.
    18 2-‐‑‒2. バッチクエリ× Tableau Server Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV c Direct Tableau Server 全件データ バッチ Result Push Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Tableau Server 上の ソースデータを更更新
  • 19.
    19 2-‐‑‒3. バッチクエリ× Redshift × Tableau Server/Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 データマート BIツール等 Data mart 全件データ バッチ Redshift
  • 20.
    20 2-‐‑‒4(a). バッチクエリ× DMP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課⾦金金ログ 招待ログ ユーザー Data Mart ⾏行行動 ユーザーの セグメント情報
  • 21.
    21 2-‐‑‒4(b). バッチクエリ× DMP × DSP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課⾦金金ログ 招待ログ DSP ユーザー KV Store 広告配信 ⾏行行動 ユーザーの セグメント情報
  • 22.
  • 23.
    23 3. アドホッククエリ× データマート (データマートをどこに置くかの違い) Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Direct Data mart BIツール等 データマート BIツール等 Tableau, Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API バッチ Redshift × Tableau アドホック
  • 24.
    24 3-‐‑‒1. アドホッククエリ× Chartio Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  • 25.
  • 26.
    26 3-‐‑‒2. アドホッククエリ× Tableau Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Tableau 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  • 27.
  • 28.
    28 3-‐‑‒3. アドホッククエリ× DMP データ収集 データ保管 データ分析 ユーザーの行動履歴ログで セグメントテーブルを更更新 バッチ 全件データ ログインログ 課⾦金金ログ 招待ログ ユーザー ⾏行行動 Segment Table アドホック