SlideShare a Scribd company logo
1 of 67
Download to read offline
The Design for Serverless ETL Pipeline
データ分析基盤のレガシーなデータロードを
サーバレスでフルリプレースするまでの道のり
株式会社リクルートライフスタイル
山田 雄・秋本 大樹・白鳥 昇治
■山田 雄(ヤマダ ユウ)
@nii_yan
株式会社 リクルートライフスタイル
ネットビジネス本部データマネジメントG
SIerにて主に組込み系の開発に従事したのち、フリーランスとして独立。フリーラ
ンスの間に、シミュレーションシステムの開発や、大手ECサイトのメールマーケ
ティング用分析基盤の構築を経験。2015年リクルートライフスタイルへ転職。リク
ルートライフスタイルの共通分析基盤を構築する傍ら、chatbotの開発や、メール
マーケティングにも関わる。
ビッグデータ周りの技術が好物。あと焼きそばも好物。
会社紹介
一生のうち、数回つかうサービス
LIFE EVENT
日常的に、つかうサービス
LIFE STYLE
一生のうち、数回つかうサービス
LIFE EVENT
日常的に、つかうサービス
LIFE STYLE
リクルートライフスタイルの
データ分析基盤の歩み
2014
2015
2016
2017
2018
✔TreasureData を一部 BQ へ移行
✔RedshiftSpectrum 導入
✔Redshift をsingle クラスタへ
✔BigQuery 導入
✔NetezzaEOSL
✔DataLake 構成導入
✔Exadata 導入
✔Hadoop 除却
✔TreasureData 導入
✔Redshift のノード拡張
✔オンプレ- AWS 間に専用線導入
✔Redshift のノード拡張
✔Netezza のスケール検討
✔Netezza のスケールアウト完了
✔Redshift のノード拡張
✔Redshift の multi クラスタ導入
2013
✔リクルート分社化
✔独自の分析基盤 Hadoop 提供スタート
✔Netezza, Redshift 導入
Spectrum
Oracle
Exadata
SPSS
aginity
CHEETAH
DIGITAL
Adobe
Analytics
CSV
外部データ
アクセスログ
アプリログ
HPB
JLN
HPG
事業データ
BigQuery
IBM Watson
Campaign
Automation
■秋本 大樹(アキモト ダイキ)
株式会社 リクルートライフスタイル
ネットビジネス本部データマネジメントG
2011年新卒としてSIerに入社。
2014年にゲーム会社に転職。ゲームデータを集積する分析基盤の構築、および
社内KPI算出の自動化を行う。
2017年12月よりリクルートライフスタイルに転職。現在は次期ETL基盤の構築と
クラウドAIサービスの社内導入に奮闘中。
最近のいち推しサービスはGoogleColaboratory
趣味は将棋を見ること。竜王戦が楽しみすぎてしょうがない。
■白鳥 昇治( シロトリ ショウジ)    
株式会社 リクルートライフスタイル
ネットビジネス本部データマネジメントG
インフラエンジニアとしてオンプレミスKubernetes環境の開発・運用に従事後、
2017年にリクルートライフスタイルに入社。
データエンジニアとしてデータ分析基盤やサーバーレスな機械学習基盤の開発・
運用などに携わる。
Docker ❤ Kubernetes ❤ CD/CI ❤ Serverless ❤ BigData
夢は山でペンション経営。
@irotoris
レガシーな構成のつらみ
技術のツギハギ ● 自前サーバで動くシェルで書かれたレガシーなコード
○ 800行を超えるシェルスクリプトファイル
● 複数システムをツギハギするスケジュール実行
○ 終了するタイミングを見計らって後続の処理を実行
● データ量に関連した処理の長時間化
Shell
Script
自前サーバ
AWS
GCP
データ間の依存関係 ● 後続のマート作成で用いるテーブルは優先度を高めてロード
する必要がある。
● データマート間にも依存関係がある。
● 現在はJP1での「イベント受信」機能を用いて優先度を実現し
ている。
優先度高
ロード
優先度低
ロード
マートA
作成
マートB
作成
マートC
作成
JP1
スケジュール実行での運用がつらい ● 障害発生時のリカバリが大変。
● 1つの実行単位に複数のテーブルを含めており、テーブル単
位でのロードができていない。
● 前の処理の時間をずらすと、後続の処理も合わせて時間を
ずらす必要がある。JP1
自前サーバでの開発がつらい ● テスト環境がないので気軽にテストできない。
● 本番に影響が出るので古いバージョンでの開発を強いられ
ている。
● 800行を超えるシェルスクリプトのメンテが辛すぎる。
古いパッケージ シェルスクリプト
本番に影響が出る
つらみを解消したい
そう、それがMigaloo Project
The Design for Serverless ETL Pipeline
と、その前に
前回のServerlessconf Tokyo !!
前回のServerlessconf Tokyo !!
● サーバーレスにしてサーバー管理を極力少なく
● イベントドリブンでオーケストレートする構成
● 自動リトライとアラートを作り込んで
● 運用0を目指しました
前回のServerlessconf Tokyo !!
Q.「いま運用どうですか?」
データ量:増えてる
機械学習バッチのリソース使用量:増えてる
前回のServerlessconf Tokyo !!
Q.「いま運用どうですか?」
データ量:増えてる
機械学習バッチのリソース使用量:増えてる
A.「全然、運用ないです」
前回のServerlessconf Tokyo !!
A.「全然、運用ないです」
● Slackのアラート確認はしてるけど、だいたい自動リトライ済み
● データ量も処理量も増えてるけどデータ量に応じてスケールする
● システムモニタリング用途のAmazon Elasticsearch Serviceのリソー
ス見直しの運用を実施
前回のServerlessconf Tokyo !!
うまくいったので今回もLet's Serverless!!
The Design for Serverless ETL Pipeline
アーキテクチャ設計思想
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
Serverless ETL Pipeline
+Runtime
+Runtime
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
Serverless ETL Pipeline
+Runtime
+Runtime
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
Serverless ETL Pipeline
+Runtime
+Runtime
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Data Source
Data Lake
Data
Warehouse
EventStatus
Serverless ETL Pipeline
Data Lake (S3)
Redshift / Spectrum
BigQuery
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+Runtime
EventStatus
Serverless ETL Pipeline
Data Lake (S3)
Redshift / Spectrum
BigQuery
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+Runtime
ETL Pipeline
+ Runtime
ETL Pipeline
+ Runtime
ETL Pipeline
+ Runtime
アーキテクチャ設計思想
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
Runtime
Pipeline(Load to DataLake)
Event
サーバーレスなパイプラインと実行環境
● パイプラインはStep Functionsなどのワークフローエンジンと
AWS Lambdaをベースに処理を定義
● 実行環境はスケーラブルなAWS Batch、Glue、GKE
● 要件により一部はオンプレサーバーを利用。これもワークフ
ローからイベントドリブンで実行可能な状態で設計
● ※オンプレのケース:大量データの圧縮処理してからデータ転送
スケール
スケールOKスケール
Runtime
Pipeline(Load to DataLake)
Event
サーバーレスなパイプラインと実行環境
スケール
Runtime
スケールOKスケール
● パイプラインはStep Functionsなどのワークフローエンジンと
AWS Lambdaをベースに処理を定義
● 実行環境はスケーラブルなAWS Batch、Glue、GKE
● 要件により一部はオンプレサーバーを利用。これもワークフ
ローからイベントドリブンで実行可能な状態で設計
● ※オンプレのケース:大量データの圧縮処理してからデータ転送
パイプラインはフルサーバレスで定義
コンテナベースでオンデマンドに起動する実行環境
要件によりサーバーをサーバーレスっぽく使う
アーキテクチャ設計思想
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
Serverless ETL Pipeline
+Runtime
+Runtime
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Event
Data
Serverless ETL Pipeline
Redshift / Spectrum
BigQuery
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+RuntimeEventStatus
Data Lake (S3)
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Runtime
Pipeline(Load to DataLake)
Event
Data
Redshift / Spectrum
BigQuery
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
Serverless ETL Pipeline
+Runtime
+Runtime
Data Lake (S3)
Event
Data
BigQuery
Pipeline(Load to BigQuery)
+RuntimeEventStatus
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Serverless ETL Pipeline
Redshift / Spectrum
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Pipeline(Load to Redshift)
+Runtime
Event
Data
BigQuery
Runtime
Pipeline(Load to DataLake)
EventStatus
Serverless ETL Pipeline
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Data Lake (S3)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+Runtime
Redshift / Spectrum
Event
Data
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
Serverless ETL Pipeline
Runtime
Event
EventEvent
Event
Event
+Runtime
+Runtime
1イベント=1データがどこかに到達したとき
イベントドリブン=データが到達したときに次の処理が実行される
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
Event
Message
Event
Message
Event
Message
+Runtime
疎結合なパイプライン
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
疎結合なパイプライン
+Runtime
Event
Message
+Runtime
Event
Message
疎結合なパイプライン
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
リトライ上限を超え
て失敗したイベント
はDLQへ
別のパイプラインの
失敗は影響しない
後から来るイベント
には影響しない
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
ここだけ修正してデ
プロイ
疎結合なパイプライン
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
ここだけ修正してデ
プロイ
各パイプラインの起動にSQSを挟むことで
パイプライン同士を疎結合に保ち
1. 障害発生時の影響を小さくする
2. 小さく素早い変更を可能にする
疎結合なパイプライン
アーキテクチャ設計思想
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
Runtime
Pipeline(Load to DataLake)
Event
パイプラインとスケーラビリティ
● マネージドなパイプラインにより無限のスケーラビリティを確
保
Event
Event
スケールします
×1,000
スケールします
×1,000
×1,000
Runtime
Pipeline(Load to DataLake)
Event
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● しかしデータロード先がRedshiftなど処理がスケールしない
場合、イベントの同時処理の制御が必要
Event
Event
しんどい
パイプラインとスケーラビリティ
Pipeline(Load to DataLake)
Event
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● しかしデータロード先がRedshiftなど処理がスケールしない
場合、イベントの同時処理の制御が必要
● SQSの処理中のメッセージ数をポーリングし、処理中の同時
実行数を確認、指定された同時実行数の場合は処理しない
制御を実現
Event
Event
いま処理が最大並列数に達し
てるので、このメッセージはまた
後で実行しよ。
セーフ
パイプラインとスケーラビリティ
×1,000
Pipeline(Load to DataLake)
Event
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● しかしデータロード先がRedshiftなど処理がスケールしない
場合、イベントの同時処理の制御が必要
● SQSの処理中のメッセージ数をポーリングし、処理中の同時
実行数を確認、指定された同時実行数の場合は処理しない
制御を実現
Event
Event
いま処理が最大並列数に達し
てるので、このメッセージはまた
後で実行しよ。
セーフ
パイプラインとスケーラビリティ
×10,000
DWH、RDBMSなどの処理がスケールしない環境の場合
SQS + Lambda + CloudWatch Eventで
パイプラインの並列度をコントロール
Pipeline(Load to DataLake)
Event
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● もちろんロード処理の宛先がスケールする場合は並列度を
気にせず実行できる ×1,000
Event
Event
一気に1,000イベント
いくぞッ!
余裕
パイプラインとスケーラビリティ
アーキテクチャ設計思想
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
Pipeline(Load to DataLake)
Event
イベントとデータのステータス管理
● 各パイプラインで、現在のイベントと処理ステータスを一元的
にDynamoDBで管理
○ システム:Lamndaの2重発火による重複起動を制御
○ システム:データロード後のマート作成実行を制御
○ ユーザー:データロード完了時間(=データ鮮度)を確認
EventStatus
このデータは
処理中だよ
このデータは
処理完了だよ
UpdateStatus
Pipeline(Load to DataLake)
Event
イベントとデータのステータス管理
● イベントとステータスの変更履歴をRDSで管理・分析
● DynamoDB Streamsでアイテムの変更をRDSへストリーミン
グインサート
● メンバのスキル的にSQLによる分析が可能→RDSに決定
EventLogEventStatus
Update
Pipeline(Load to DataLake)
Event
イベントとデータのステータス管理
● イベントとステータスの変更履歴をRDSで管理・分析
● DynamoDB Streamsでアイテムの変更をRDSへストリーミン
グインサート
● メンバのスキル的にSQLによる分析が可能→RDSに決定
EventLogEventStatus
Update
システム間連携、ユーザビリティのためステータスを管理
ステータスログはデバッグ用に正規化して保全しておく
アーキテクチャ設計思想
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
アプリケーションログとシステムモニタリング
● ログはDatadogに集約。重要な通知はSlackへ。
● Lambda、AWS Batch、On-Premiseの様々な実行環
境のプログラムログを一元的に検索可能。
Logging Alert
アプリケーションログとシステムモニタリング
● マネージドサービスのメトリクスのアラートもDatadogに集
約。重要な通知はSlackへ。
Metrics Alert
アプリケーションログとシステムモニタリング
● マネージドサービスのメトリクスのアラートもDatadogに集
約。重要な通知はSlackへ。
Metrics Alert
Datadogでログとメトリクスを
一元的に管理・検索・モニタリング
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift / Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
Serverless ETL Pipeline
リプレースの際の教訓
既存の運用に設計が引きずられる ● 運用をなるべく変えないようにすると、既存のインターフェー
スに引きずられてサーバ依存の設計になりがち。
● 運用も含めてリプレースの対象だという共通認識を作る。た
だしこれには運用者の同意も必要なので事前の調整が必
須。
慣れた運用からの脱却
ログの保存先の変更
新しいツールの学習
スコープの肥大化 ● システムのリプレースにおいては、今までのつらみを解消し
ようとしてスコープが肥大化しがち。
● 要望を明文化して残しておき「やるやらない」の判断をしてか
らプロジェクトを進めるようにする。
新しいシステムが全てを叶えてくれるわけではない。
スコープ スコープ
あれもやりたい
これもやりたい
一度リストに集約
そのままだと
膨れ上がる
スコープの範囲を
明確化する
エンジニア募集中!!
It’s easier to ask forgiveness than
it is to get permission.
Development follows your heart.

More Related Content

What's hot

Elastic circle ci-co-webinar-20210127
Elastic circle ci-co-webinar-20210127Elastic circle ci-co-webinar-20210127
Elastic circle ci-co-webinar-20210127Shotaro Suzuki
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみるTakahiro Moteki
 
Renewed using elasticsearchonaspnet-core5
Renewed using elasticsearchonaspnet-core5Renewed using elasticsearchonaspnet-core5
Renewed using elasticsearchonaspnet-core5Shotaro Suzuki
 
Building andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraformBuilding andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraformShotaro Suzuki
 
Elastic 7.13-new-features-20210624
Elastic 7.13-new-features-20210624Elastic 7.13-new-features-20210624
Elastic 7.13-new-features-20210624Shotaro Suzuki
 
Elastic stack_&_cloud_7.11_updates-summary
Elastic stack_&_cloud_7.11_updates-summaryElastic stack_&_cloud_7.11_updates-summary
Elastic stack_&_cloud_7.11_updates-summaryShotaro Suzuki
 
Elastic Aquia Joint webinar-20211006
Elastic Aquia Joint webinar-20211006Elastic Aquia Joint webinar-20211006
Elastic Aquia Joint webinar-20211006Shotaro Suzuki
 
Building modernapplicationwithelasiccloud
Building modernapplicationwithelasiccloudBuilding modernapplicationwithelasiccloud
Building modernapplicationwithelasiccloudShotaro Suzuki
 
Azure Monitor Logで実現するモダンな管理手法
Azure Monitor Logで実現するモダンな管理手法Azure Monitor Logで実現するモダンな管理手法
Azure Monitor Logで実現するモダンな管理手法Takeshi Fukuhara
 
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)Yosuke Katsuki
 
Realizling Dapr Observability Using Elastic Stack
Realizling Dapr Observability Using Elastic StackRealizling Dapr Observability Using Elastic Stack
Realizling Dapr Observability Using Elastic StackShotaro Suzuki
 
7.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn0827
7.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn08277.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn0827
7.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn0827Shotaro Suzuki
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...Naoki (Neo) SATO
 
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiGpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiShotaro Suzuki
 
DatadogでAWS監視やってみた
DatadogでAWS監視やってみたDatadogでAWS監視やってみた
DatadogでAWS監視やってみたtyamane
 
Apm enables python app observability
Apm enables python app observabilityApm enables python app observability
Apm enables python app observabilityShotaro Suzuki
 
whats-new-in-elastic-7-14
whats-new-in-elastic-7-14whats-new-in-elastic-7-14
whats-new-in-elastic-7-14Shotaro Suzuki
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装de:code 2017
 
Utilizing elasticcloudforallusecases
Utilizing elasticcloudforallusecasesUtilizing elasticcloudforallusecases
Utilizing elasticcloudforallusecasesShotaro Suzuki
 
Elastic7.10 newfeaturesintroduce 1216
Elastic7.10 newfeaturesintroduce 1216Elastic7.10 newfeaturesintroduce 1216
Elastic7.10 newfeaturesintroduce 1216Shotaro Suzuki
 

What's hot (20)

Elastic circle ci-co-webinar-20210127
Elastic circle ci-co-webinar-20210127Elastic circle ci-co-webinar-20210127
Elastic circle ci-co-webinar-20210127
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
 
Renewed using elasticsearchonaspnet-core5
Renewed using elasticsearchonaspnet-core5Renewed using elasticsearchonaspnet-core5
Renewed using elasticsearchonaspnet-core5
 
Building andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraformBuilding andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraform
 
Elastic 7.13-new-features-20210624
Elastic 7.13-new-features-20210624Elastic 7.13-new-features-20210624
Elastic 7.13-new-features-20210624
 
Elastic stack_&_cloud_7.11_updates-summary
Elastic stack_&_cloud_7.11_updates-summaryElastic stack_&_cloud_7.11_updates-summary
Elastic stack_&_cloud_7.11_updates-summary
 
Elastic Aquia Joint webinar-20211006
Elastic Aquia Joint webinar-20211006Elastic Aquia Joint webinar-20211006
Elastic Aquia Joint webinar-20211006
 
Building modernapplicationwithelasiccloud
Building modernapplicationwithelasiccloudBuilding modernapplicationwithelasiccloud
Building modernapplicationwithelasiccloud
 
Azure Monitor Logで実現するモダンな管理手法
Azure Monitor Logで実現するモダンな管理手法Azure Monitor Logで実現するモダンな管理手法
Azure Monitor Logで実現するモダンな管理手法
 
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
 
Realizling Dapr Observability Using Elastic Stack
Realizling Dapr Observability Using Elastic StackRealizling Dapr Observability Using Elastic Stack
Realizling Dapr Observability Using Elastic Stack
 
7.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn0827
7.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn08277.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn0827
7.9 elasticstackandcloudtechnicalenablement excitingnewfeatures-jpn0827
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
 
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiGpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
 
DatadogでAWS監視やってみた
DatadogでAWS監視やってみたDatadogでAWS監視やってみた
DatadogでAWS監視やってみた
 
Apm enables python app observability
Apm enables python app observabilityApm enables python app observability
Apm enables python app observability
 
whats-new-in-elastic-7-14
whats-new-in-elastic-7-14whats-new-in-elastic-7-14
whats-new-in-elastic-7-14
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
 
Utilizing elasticcloudforallusecases
Utilizing elasticcloudforallusecasesUtilizing elasticcloudforallusecases
Utilizing elasticcloudforallusecases
 
Elastic7.10 newfeaturesintroduce 1216
Elastic7.10 newfeaturesintroduce 1216Elastic7.10 newfeaturesintroduce 1216
Elastic7.10 newfeaturesintroduce 1216
 

Similar to The Design for Serverless ETL Pipeline (48:9)

The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のりThe Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のりRecruit Lifestyle Co., Ltd.
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauDataWorks Summit
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングTakahiro Inoue
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!Recruit Lifestyle Co., Ltd.
 
Accelerate Migration to the Cloud using Data Virtualization
Accelerate Migration to the Cloud using Data VirtualizationAccelerate Migration to the Cloud using Data Virtualization
Accelerate Migration to the Cloud using Data VirtualizationDenodo
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Recruit Lifestyle Co., Ltd.
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Yu Yamada
 
Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623Shotaro Suzuki
 
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」株式会社クライム
 
ADO.NETでつながるクラウドデータ連携
ADO.NETでつながるクラウドデータ連携ADO.NETでつながるクラウドデータ連携
ADO.NETでつながるクラウドデータ連携CData Software Japan
 
データ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみよう
データ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみようデータ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみよう
データ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみようSalesforce Developers Japan
 
kintoneではじめるビジネスインテリジェンス
kintoneではじめるビジネスインテリジェンスkintoneではじめるビジネスインテリジェンス
kintoneではじめるビジネスインテリジェンスSakae Saito
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例Tetsutaro Watanabe
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みcyberagent
 
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介Kenji Hara
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
Polyglot Persistence and Graph Schema
Polyglot Persistence and Graph SchemaPolyglot Persistence and Graph Schema
Polyglot Persistence and Graph SchemaTakao Tetsuro
 
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~Yugo Shimizu
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 株式会社MonotaRO Tech Team
 

Similar to The Design for Serverless ETL Pipeline (48:9) (20)

The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のりThe Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
 
Accelerate Migration to the Cloud using Data Virtualization
Accelerate Migration to the Cloud using Data VirtualizationAccelerate Migration to the Cloud using Data Virtualization
Accelerate Migration to the Cloud using Data Virtualization
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623
 
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
 
ADO.NETでつながるクラウドデータ連携
ADO.NETでつながるクラウドデータ連携ADO.NETでつながるクラウドデータ連携
ADO.NETでつながるクラウドデータ連携
 
データ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみよう
データ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみようデータ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみよう
データ連携の新しいカタチ - 変更データキャプチャ/プラットフォームイベントを MuleSoft Anypoint Platform と組み合わせて試してみよう
 
kintoneではじめるビジネスインテリジェンス
kintoneではじめるビジネスインテリジェンスkintoneではじめるビジネスインテリジェンス
kintoneではじめるビジネスインテリジェンス
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Polyglot Persistence and Graph Schema
Polyglot Persistence and Graph SchemaPolyglot Persistence and Graph Schema
Polyglot Persistence and Graph Schema
 
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Recently uploaded (9)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

The Design for Serverless ETL Pipeline (48:9)