SlideShare a Scribd company logo
1 of 25
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Redshift Spectrumを使ってみた話
2017/05/18
株式会社リクルートテクノロジーズ
河野 愛樹
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department本日お話すること
 自己紹介
 我々のサービスとその課題感
 Redshift Spectrumで課題を解決できるか
1
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department自己紹介
 河野 愛樹(こうの よしき)
 株式会社リクルートテクノロジーズ ビッグデータ部
 事業会社へのBIソリューション提供とBI推進
2
(C) Recruit Technologies Co.,Ltd. All rights reserved.
我々のサービスとその課題感
3
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
 事業が本来の業務に専念できるよう、すぐにデータを見れる・分析できる状態を提供
 インフラサービス
 BI製品・分析サーバを環境構築と運用管理をパッケージ化
 Cognos BI
 Tableau Server
 Jupyter Notebook + Python Libraries
 LDAP や OneLoginなどの認証機構
 主なデータソースにRedshift(事業次第)
 データ管理・データ連携支援
 ハコ(インフラ)だけあってもしょうがないので、
必要なデータを持ってきて使える状態にするところも支援
背景:マネージドBIソリューション
Tableau Server
+運用管理
4
Cognos BI
+運用管理
+運用管理
Analysis Server
LDAP
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department課題
 課題①:データ量に上限がある
 データをクラスタ内に持つ故の制約
 溜まり続けるデータに対して打てる手は「データを消す」「ノード数を増やす(上限有)」「クラスタ
を分ける」
 取った選択はノード数を増やす
• ただし、コストとのトレードオフ…
• 長時間に渡るリサイズの辛さ
 課題②:クエリ多重度が低い
 推奨15多重
• 上限もある、Max50多重
• 多くの人がよってたかって使うには不向き
• 実際、BIレポートの実行時間も10多重を超えると2倍以上遅くなっている
 取った選択はクラスタを分ける
• ロールごとに使い方やクエリの特性が違う
• 営業用、MP(企画)用、分析者用、etc
5
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
 課題③:データ連携が辛くなる
 クラスタを分けたことによる弊害
 連携が増える(= 複雑になる) + 障害点が増える(障害時の影響範囲も広くなる)
 加えて、複数の環境でほぼ同じデータセットうことも
課題
事業DB
Hadoop
6
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
 同一事業会社なのに部署ごとに環境が生まれる
 営業向け、MP(企画者)向け、データ分析エンジニア向け、経営向け…
 AWS費用が高コストに
 環境差分や運用の個別チューニングもあり、メンテナンスコストも増大
結果、こうなっている
事業DB
Hadoop
Tableau Server
Cognos BI
Jupyter Notebook
営業
MP
データ分析
エンジニア
全部同じ事業
会社だった!
なんてことも。
7
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
つらい
8
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
Source: AWS Summit San Francisco 2017: Keynote with Werner Vogels
https://www.youtube.com/watch?v=RpPf38L0HHU 9
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Redshift Spectrumで
課題を解決できるか
10
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
 S3に直接クエリする、ロード不要
 ストレージに容量上限無し
 CSVやParquetを直接扱える
 Athena の Data Catalogを利用
 Data Catalogにテーブル定義情報を登録
 RedshiftからはExternal Schema/Tableとして扱う
Redshift Spectrum
11
Publicスキーマ
Table
Table
Table
S3スキーマ
(External)
Table
S3ファイルパス
テーブル定義
Table
(External)
Data Catalog
External Schema
External
Table
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentアーキテクチャ比較:Redshift と Redshift Spectrum
 Redshift Spectrum Layer
(不可視領域)
Data
Catalog
L C
C
C
SQL
Pre-Load
L C
C
C
SQL
S3 Get
S
S
S
S
・
・
・
 Redshift Spectrum
12
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department検証・評価
 AWSの協力のもと、発表前にプロダクト評価を実施
 目的:Spectrumで我々の課題が解決できるか
 課題①:データ量上限
 課題②:クエリ多重度
 課題③:データ連携
 使ったデータセット
 TSV
 約6億行
 約50GB(非圧縮時、gzip圧縮で約25GB)
 既にRedshift内に保有済みデータをSpectrum用にS3出力
13
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department検証前の期待感
 Redshiftに抱いてた課題感を元にすると…
 データ量上限:ストレージの分離!上限なし!
 クエリ多重度:Spectrum Layerが何者か次第…
目的別に分けてたクラスタが統合できるかも?
 データ連携:ロード不要!バッチ作らなくていい!メンテも無くなる!
 その他:
• コスト:ストレージはS3だからRedshiftは処理リソース分の料金だけで済む!
そもそもノード数関係無くなるのか?(減らせれる?)
• 性能:S3へのIOだから圧倒的に遅くなりそう…
14
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department結果①:Small File かつ Multi Nodeは必須
 Big File vs Small File
 Single Node, TSV, Compress(gzip)
15
Big File
(6GB/file * 6files)
Small File
(600MB/file * 40files)
Redshift(参考値)
Full Scan (select *) 111 29 3
単位:秒
Spectrum Redshift(参考値)
1 node 20 nodes 20 nodes
Full Scan (select *) 28 16 1
Filter (select 4 columns,
3 filters)
30 18 3
Join (dimension x fact) 81 19 4
 Single Node vs Multi Node
 600MB/file, TSV, Compress(gzip)
単位:秒
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department結果②:多重度による劣化はクエリ特性による
16
Single Query 15 Parallel Query 30 Parallel Query
Spectrum Redshift Spectrum Redshift Spectrum Redshift
Full Scan (select *) 16 0.1 22 2 15 4
Filter (select 4 columns,
3 filters)
15 1 24 17 21 34
Join (dimension x fact) 19 3 65 50 131 109
 1多重 vs 15多重 vs 30多重 (※リリース後に追加検証)
 20 nodes, 600MB/file, TSV, Compress(gzip)
単位:秒(平均)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department結果②-Full Scan:大きな性能劣化なし
 RedshiftとSpectrumとで平行線
 クラスタローカルディスクとS3との
IO速度の差がそのまま出ていると推察
 高多重度でのクエリ速度の大きな劣
化はない
 IO競合も気にならない程度
17
0
20
40
60
80
100
120
140
1パラ 15パラ 30パラ
クエリ時間(秒) クエリ多重度
Redshift - Full Scan Spectrum - Full Scan
select * from fact
■ Query←Fast
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department結果②-Filter:Spectrumが高多重度に強い
 Spectrumは大きな劣化は見られな
い
 Spectrum Layerの多大なリソース量
が頑張ってる
 Redshiftはリニアに遅くなる
 Compute Nodeの処理性能
18
0
20
40
60
80
100
120
140
1パラ 15パラ 30パラ
クエリ時間(秒) クエリ多重度
Redshift - Fillter Spectrum - Filter
select key from fact
where
mode like 'REG%'
and tax = 1
and lo_discount = 0;
■ Query←Fast
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department結果②-Join:両者大きく性能劣化
 RedshiftとSpectrumとで平行線
 Full Scan同様
 クエリ性能はものすごく劣化
 Leader NodeがJOIN処理を担う
 Leader Nodeが処理のボトルネックに
19
0
20
40
60
80
100
120
140
1パラ 15パラ 30パラ
クエリ時間(秒) クエリ多重度
Redshift - Join Spectrum - Join
select fact.price, fact.priority
from fact inner join dim
on fact.key = dim.key
where
dim.address = ’Tokyo'
■ Query←Fast
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department結果③:ParquetにするとRedshiftに迫る勢い
 TSV vs Parquet
 20 nodes, 600MB/file, Compress(gzip)
20
TSV Parquet Redshift(参考値)
Full Scan (select *) 16 2 1
Filter (select 4 columns,
3 filters)
18 6 6
Join (demension x fact) 19 12 9
単位:秒
 確かにParquet形式は早かった! がしかし…!
 既存データの多くはCSV/TSV
 わざわざParquetに変換してまで保持するか?
 AWS Glue(Managed ETL)との組み合わせに期待
• Parquet形式への自動変換
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentハマりどころ①
 Redshiftからアンロードした巨大なファイルだと遅い
 データ生成のためにRedshiftからUnload
 Redshiftの仕様として最大約6GBで自動分割
 Spectrumでクエリすると非常に遅かった
 Spectrumのチューニングポイント
 1ファイルを1GB以下にすること
 Redshiftからアンロードする場合はファイルサイズに注意(Unload後に分割すべし)
21
Source: Amazon Redshift Database Developer Guide
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c-spectrum-external-performance.html
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentSpectrumをうまく使うには
 ファイル数は分割しておく
 数百MB単位を目安に
 Multi Node クラスタにする
 クエリ時間とコストのトレードオフ
 コストが許されるなら多いほうが早い
 Spectrum Layerで処理させる
 コンピュートノードでやってたことがオフロードされる
 Spectrumを使ってもLeader Nodeは1つなのでJOINは諦める
 カラムナフォーマット + 必要なカラムのみクエリする
 Parquet形式が推奨
 データの読み出し量の差も性能に効いている
22
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentまとめ:我々はSpectrumで幸せになれるか?
 課題①:データ量上限の苦しみ →幸せになれる!
 S3により上限解放
 長時間リサイズからの開放
 ストレージとしてかかってたコストからの開放
 課題②:クエリ多重度の苦しみ →多重度的には変わらないか良くなる(ただしIO性能分は遅
くなる)
 Leader NodeでのJOIN処理によるクエリ速度劣化は健在
 S3のI/Oが想定してたより早く、高多重度でもI/O性能があまり落ちない
 課題③:データ連携地獄の苦しみ →残念ながら未評価
 Redshiftへのロード処理が要らない分バッチ数は減る
 クエリ特性が似てるクラスタだと纏められる(減らせる)クラスタはあるかもしれない
 一方、データの書き込み(Insertなど)ができないのでデータマート作成は減らせれない
 Glueとの連携に期待!
23
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Question?
24

More Related Content

What's hot

20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...Amazon Web Services Japan
 
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをなAmazon Web Services Japan
 
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)Amazon Web Services Japan
 
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...Amazon Web Services Japan
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormationAWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormationAmazon Web Services Japan
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway Amazon Web Services Japan
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-Amazon Web Services Japan
 
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
AWS Black Belt Online Seminar AWSで実現するDisaster RecoveryAWS Black Belt Online Seminar AWSで実現するDisaster Recovery
AWS Black Belt Online Seminar AWSで実現するDisaster RecoveryAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAmazon Web Services Japan
 
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)Amazon Web Services Japan
 
20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS Batch20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS BatchAmazon Web Services Japan
 
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)Amazon Web Services Japan
 
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...Amazon Web Services Japan
 
AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS) AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS) Amazon Web Services Japan
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介Amazon Web Services Japan
 
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQLAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage GatewayAWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage GatewayAmazon Web Services Japan
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したことAmazon Web Services Japan
 

What's hot (20)

20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
 
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
 
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
 
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
AWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormationAWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormation
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
 
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
AWS Black Belt Online Seminar AWSで実現するDisaster RecoveryAWS Black Belt Online Seminar AWSで実現するDisaster Recovery
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
 
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
 
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
 
20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS Batch20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS Batch
 
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
 
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
 
AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS) AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS)
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
 
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
 
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage GatewayAWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
 
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
 

Viewers also liked

Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...Alex Levenson
 
AWS Black Belt Online Seminar 2017 Amazon Connect
AWS Black Belt Online Seminar 2017 Amazon ConnectAWS Black Belt Online Seminar 2017 Amazon Connect
AWS Black Belt Online Seminar 2017 Amazon ConnectAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon GameLift
AWS Black Belt Online Seminar 2017 Amazon GameLiftAWS Black Belt Online Seminar 2017 Amazon GameLift
AWS Black Belt Online Seminar 2017 Amazon GameLiftAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon EMR
AWS Black Belt Online Seminar 2017 Amazon EMR AWS Black Belt Online Seminar 2017 Amazon EMR
AWS Black Belt Online Seminar 2017 Amazon EMR Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計
AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計
AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハック
AWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハックAWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハック
AWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハックAmazon Web Services Japan
 
Amazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオンAmazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオンAmazon Web Services Japan
 

Viewers also liked (9)

Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
 
Alibaba Cloud
Alibaba CloudAlibaba Cloud
Alibaba Cloud
 
AWS Black Belt Online Seminar 2017 Amazon Connect
AWS Black Belt Online Seminar 2017 Amazon ConnectAWS Black Belt Online Seminar 2017 Amazon Connect
AWS Black Belt Online Seminar 2017 Amazon Connect
 
AWS Black Belt Online Seminar 2017 Amazon GameLift
AWS Black Belt Online Seminar 2017 Amazon GameLiftAWS Black Belt Online Seminar 2017 Amazon GameLift
AWS Black Belt Online Seminar 2017 Amazon GameLift
 
AWS BlackBelt AWS上でのDDoS対策
AWS BlackBelt AWS上でのDDoS対策AWS BlackBelt AWS上でのDDoS対策
AWS BlackBelt AWS上でのDDoS対策
 
AWS Black Belt Online Seminar 2017 Amazon EMR
AWS Black Belt Online Seminar 2017 Amazon EMR AWS Black Belt Online Seminar 2017 Amazon EMR
AWS Black Belt Online Seminar 2017 Amazon EMR
 
AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計
AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計
AWS Black Belt Online Seminar 2017 AWSへのネットワーク接続とAWS上のネットワーク内部設計
 
AWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハック
AWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハックAWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハック
AWS Black Belt Online Seminar 2017 Amazon Pinpoint で始めるモバイルアプリのグロースハック
 
Amazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオンAmazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオン
 

Similar to Redshift Spectrumを使ってみた話

リクルートのWebサービスを支える共通インフラ「RAFTEL」
リクルートのWebサービスを支える共通インフラ「RAFTEL」リクルートのWebサービスを支える共通インフラ「RAFTEL」
リクルートのWebサービスを支える共通インフラ「RAFTEL」Recruit Technologies
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupDataWorks Summit/Hadoop Summit
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupRecruit Technologies
 
drecomにおけるwinning the metrics battle
drecomにおけるwinning the metrics battledrecomにおけるwinning the metrics battle
drecomにおけるwinning the metrics battleMitsuki Kenichi
 
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤Recruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
Wot2015 微博平台护城河-构建高效的防御体系-王关胜
Wot2015 微博平台护城河-构建高效的防御体系-王关胜Wot2015 微博平台护城河-构建高效的防御体系-王关胜
Wot2015 微博平台护城河-构建高效的防御体系-王关胜Weibo Corporation
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法Tetsutaro Watanabe
 
Autonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーションAutonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーションオラクルエンジニア通信
 
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~griddb
 
Hajimete k3s agenda_200730
Hajimete k3s agenda_200730Hajimete k3s agenda_200730
Hajimete k3s agenda_200730Junji Nishihara
 
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日IBM Analytics Japan
 
TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#ta2c
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視Takanori Suzuki
 
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke HiramaInsight Technology, Inc.
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionTetsutaro Watanabe
 

Similar to Redshift Spectrumを使ってみた話 (20)

リクルートのWebサービスを支える共通インフラ「RAFTEL」
リクルートのWebサービスを支える共通インフラ「RAFTEL」リクルートのWebサービスを支える共通インフラ「RAFTEL」
リクルートのWebサービスを支える共通インフラ「RAFTEL」
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
 
Spring “BigData”
Spring “BigData”Spring “BigData”
Spring “BigData”
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit group
 
drecomにおけるwinning the metrics battle
drecomにおけるwinning the metrics battledrecomにおけるwinning the metrics battle
drecomにおけるwinning the metrics battle
 
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
Wot2015 微博平台护城河-构建高效的防御体系-王关胜
Wot2015 微博平台护城河-构建高效的防御体系-王关胜Wot2015 微博平台护城河-构建高效的防御体系-王关胜
Wot2015 微博平台护城河-构建高效的防御体系-王关胜
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
Autonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーションAutonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーション
 
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~
 
Hajimete k3s agenda_200730
Hajimete k3s agenda_200730Hajimete k3s agenda_200730
Hajimete k3s agenda_200730
 
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
 
TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
 
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年version
 
Google cloudinside3
Google cloudinside3Google cloudinside3
Google cloudinside3
 

Recently uploaded

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 

Recently uploaded (10)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

Redshift Spectrumを使ってみた話

  • 1. (C) Recruit Technologies Co.,Ltd. All rights reserved. Redshift Spectrumを使ってみた話 2017/05/18 株式会社リクルートテクノロジーズ 河野 愛樹
  • 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department本日お話すること  自己紹介  我々のサービスとその課題感  Redshift Spectrumで課題を解決できるか 1
  • 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department自己紹介  河野 愛樹(こうの よしき)  株式会社リクルートテクノロジーズ ビッグデータ部  事業会社へのBIソリューション提供とBI推進 2
  • 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. 我々のサービスとその課題感 3
  • 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department  事業が本来の業務に専念できるよう、すぐにデータを見れる・分析できる状態を提供  インフラサービス  BI製品・分析サーバを環境構築と運用管理をパッケージ化  Cognos BI  Tableau Server  Jupyter Notebook + Python Libraries  LDAP や OneLoginなどの認証機構  主なデータソースにRedshift(事業次第)  データ管理・データ連携支援  ハコ(インフラ)だけあってもしょうがないので、 必要なデータを持ってきて使える状態にするところも支援 背景:マネージドBIソリューション Tableau Server +運用管理 4 Cognos BI +運用管理 +運用管理 Analysis Server LDAP
  • 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department課題  課題①:データ量に上限がある  データをクラスタ内に持つ故の制約  溜まり続けるデータに対して打てる手は「データを消す」「ノード数を増やす(上限有)」「クラスタ を分ける」  取った選択はノード数を増やす • ただし、コストとのトレードオフ… • 長時間に渡るリサイズの辛さ  課題②:クエリ多重度が低い  推奨15多重 • 上限もある、Max50多重 • 多くの人がよってたかって使うには不向き • 実際、BIレポートの実行時間も10多重を超えると2倍以上遅くなっている  取った選択はクラスタを分ける • ロールごとに使い方やクエリの特性が違う • 営業用、MP(企画)用、分析者用、etc 5
  • 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department  課題③:データ連携が辛くなる  クラスタを分けたことによる弊害  連携が増える(= 複雑になる) + 障害点が増える(障害時の影響範囲も広くなる)  加えて、複数の環境でほぼ同じデータセットうことも 課題 事業DB Hadoop 6
  • 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department  同一事業会社なのに部署ごとに環境が生まれる  営業向け、MP(企画者)向け、データ分析エンジニア向け、経営向け…  AWS費用が高コストに  環境差分や運用の個別チューニングもあり、メンテナンスコストも増大 結果、こうなっている 事業DB Hadoop Tableau Server Cognos BI Jupyter Notebook 営業 MP データ分析 エンジニア 全部同じ事業 会社だった! なんてことも。 7
  • 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department つらい 8
  • 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department Source: AWS Summit San Francisco 2017: Keynote with Werner Vogels https://www.youtube.com/watch?v=RpPf38L0HHU 9
  • 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. Redshift Spectrumで 課題を解決できるか 10
  • 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department  S3に直接クエリする、ロード不要  ストレージに容量上限無し  CSVやParquetを直接扱える  Athena の Data Catalogを利用  Data Catalogにテーブル定義情報を登録  RedshiftからはExternal Schema/Tableとして扱う Redshift Spectrum 11 Publicスキーマ Table Table Table S3スキーマ (External) Table S3ファイルパス テーブル定義 Table (External) Data Catalog External Schema External Table
  • 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentアーキテクチャ比較:Redshift と Redshift Spectrum  Redshift Spectrum Layer (不可視領域) Data Catalog L C C C SQL Pre-Load L C C C SQL S3 Get S S S S ・ ・ ・  Redshift Spectrum 12
  • 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department検証・評価  AWSの協力のもと、発表前にプロダクト評価を実施  目的:Spectrumで我々の課題が解決できるか  課題①:データ量上限  課題②:クエリ多重度  課題③:データ連携  使ったデータセット  TSV  約6億行  約50GB(非圧縮時、gzip圧縮で約25GB)  既にRedshift内に保有済みデータをSpectrum用にS3出力 13
  • 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department検証前の期待感  Redshiftに抱いてた課題感を元にすると…  データ量上限:ストレージの分離!上限なし!  クエリ多重度:Spectrum Layerが何者か次第… 目的別に分けてたクラスタが統合できるかも?  データ連携:ロード不要!バッチ作らなくていい!メンテも無くなる!  その他: • コスト:ストレージはS3だからRedshiftは処理リソース分の料金だけで済む! そもそもノード数関係無くなるのか?(減らせれる?) • 性能:S3へのIOだから圧倒的に遅くなりそう… 14
  • 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department結果①:Small File かつ Multi Nodeは必須  Big File vs Small File  Single Node, TSV, Compress(gzip) 15 Big File (6GB/file * 6files) Small File (600MB/file * 40files) Redshift(参考値) Full Scan (select *) 111 29 3 単位:秒 Spectrum Redshift(参考値) 1 node 20 nodes 20 nodes Full Scan (select *) 28 16 1 Filter (select 4 columns, 3 filters) 30 18 3 Join (dimension x fact) 81 19 4  Single Node vs Multi Node  600MB/file, TSV, Compress(gzip) 単位:秒
  • 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department結果②:多重度による劣化はクエリ特性による 16 Single Query 15 Parallel Query 30 Parallel Query Spectrum Redshift Spectrum Redshift Spectrum Redshift Full Scan (select *) 16 0.1 22 2 15 4 Filter (select 4 columns, 3 filters) 15 1 24 17 21 34 Join (dimension x fact) 19 3 65 50 131 109  1多重 vs 15多重 vs 30多重 (※リリース後に追加検証)  20 nodes, 600MB/file, TSV, Compress(gzip) 単位:秒(平均)
  • 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department結果②-Full Scan:大きな性能劣化なし  RedshiftとSpectrumとで平行線  クラスタローカルディスクとS3との IO速度の差がそのまま出ていると推察  高多重度でのクエリ速度の大きな劣 化はない  IO競合も気にならない程度 17 0 20 40 60 80 100 120 140 1パラ 15パラ 30パラ クエリ時間(秒) クエリ多重度 Redshift - Full Scan Spectrum - Full Scan select * from fact ■ Query←Fast
  • 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department結果②-Filter:Spectrumが高多重度に強い  Spectrumは大きな劣化は見られな い  Spectrum Layerの多大なリソース量 が頑張ってる  Redshiftはリニアに遅くなる  Compute Nodeの処理性能 18 0 20 40 60 80 100 120 140 1パラ 15パラ 30パラ クエリ時間(秒) クエリ多重度 Redshift - Fillter Spectrum - Filter select key from fact where mode like 'REG%' and tax = 1 and lo_discount = 0; ■ Query←Fast
  • 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department結果②-Join:両者大きく性能劣化  RedshiftとSpectrumとで平行線  Full Scan同様  クエリ性能はものすごく劣化  Leader NodeがJOIN処理を担う  Leader Nodeが処理のボトルネックに 19 0 20 40 60 80 100 120 140 1パラ 15パラ 30パラ クエリ時間(秒) クエリ多重度 Redshift - Join Spectrum - Join select fact.price, fact.priority from fact inner join dim on fact.key = dim.key where dim.address = ’Tokyo' ■ Query←Fast
  • 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department結果③:ParquetにするとRedshiftに迫る勢い  TSV vs Parquet  20 nodes, 600MB/file, Compress(gzip) 20 TSV Parquet Redshift(参考値) Full Scan (select *) 16 2 1 Filter (select 4 columns, 3 filters) 18 6 6 Join (demension x fact) 19 12 9 単位:秒  確かにParquet形式は早かった! がしかし…!  既存データの多くはCSV/TSV  わざわざParquetに変換してまで保持するか?  AWS Glue(Managed ETL)との組み合わせに期待 • Parquet形式への自動変換
  • 22. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentハマりどころ①  Redshiftからアンロードした巨大なファイルだと遅い  データ生成のためにRedshiftからUnload  Redshiftの仕様として最大約6GBで自動分割  Spectrumでクエリすると非常に遅かった  Spectrumのチューニングポイント  1ファイルを1GB以下にすること  Redshiftからアンロードする場合はファイルサイズに注意(Unload後に分割すべし) 21 Source: Amazon Redshift Database Developer Guide https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c-spectrum-external-performance.html
  • 23. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentSpectrumをうまく使うには  ファイル数は分割しておく  数百MB単位を目安に  Multi Node クラスタにする  クエリ時間とコストのトレードオフ  コストが許されるなら多いほうが早い  Spectrum Layerで処理させる  コンピュートノードでやってたことがオフロードされる  Spectrumを使ってもLeader Nodeは1つなのでJOINは諦める  カラムナフォーマット + 必要なカラムのみクエリする  Parquet形式が推奨  データの読み出し量の差も性能に効いている 22
  • 24. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentまとめ:我々はSpectrumで幸せになれるか?  課題①:データ量上限の苦しみ →幸せになれる!  S3により上限解放  長時間リサイズからの開放  ストレージとしてかかってたコストからの開放  課題②:クエリ多重度の苦しみ →多重度的には変わらないか良くなる(ただしIO性能分は遅 くなる)  Leader NodeでのJOIN処理によるクエリ速度劣化は健在  S3のI/Oが想定してたより早く、高多重度でもI/O性能があまり落ちない  課題③:データ連携地獄の苦しみ →残念ながら未評価  Redshiftへのロード処理が要らない分バッチ数は減る  クエリ特性が似てるクラスタだと纏められる(減らせる)クラスタはあるかもしれない  一方、データの書き込み(Insertなど)ができないのでデータマート作成は減らせれない  Glueとの連携に期待! 23
  • 25. (C) Recruit Technologies Co.,Ltd. All rights reserved. Question? 24