SlideShare a Scribd company logo
1 of 12
Download to read offline
メルペイあと払いを実現するData Pipeline

@shigeru

メルカリxメルペイ MachineLearning Meetup
2019 / 08 / 27
自己紹介

2
● 名前

Satoshi Matsuzaki (@shigeru)

● 職種

  Software Engineer / Machine Learning(SysML)

● やってきたこと

○ 前職

■ ECサイトのレコメンドロジックの開発

■ 機械学習によるマルウェア検知技術の開発

○ メルペイ (2018/10 〜)

■ メルカリ・メルペイデータの分析

■ 機械学習基盤の設計/実装/運用

Agenda

1. メルペイあと払いを実現するDataPipeline



2. 再現性を保つDataSnapshot



3. データ不整合を解消するDataCorrection



4. Microservice環境下でのDataValidation

Train/Predict Pipeline
Engineers
Data Pipeline
Mercari/Merpay DB
BigQuery
Predict Result
BigQuery
Datasets
Cloud Storage
Models
Cloud Storage
load dataset
Create Dataset
Cloud Composer
Train/Predict Image
Container Registry
loads
save
Predict Job
Kubernetes Engine
Train Job
Kubernetes Engine
load image
dump
Monitoring
Logging
4
1. メルペイあと払いを実現するDataPipeline

Query
⑥あと払い連携
5
Airflow(Cloud Composer)

● タスクの依存関係をDAGで定義するWorkflow Engine.

● 複数のtableを参照して、学習に必要なDatasetを並列で作成している

    

         

Airflow(Cloud Composer)によるDataset生成

Scoring Pipeline
Data Pipeline
Dataset Pipeline
Dataset for train/predict
Cloud Storage
Create Dataset
Cloud Composer
Engineers
Corrected data
BigQuery
DataSnapshot
BigQuery
Mercari/Merpay DB
BigQuery
6
データ不整合を解消する
DataCorrection
再現性を保つ
DataSnapshot
Airflow(Cloud Composer)によるDataset生成

Predict Job
Kubernetes Engine
Train Job
Kubernetes Engine
Microservice環境下での
DataValidation
①任意のタイミングでキック
②Cron設定によるキック
2. 再現性を保つDataSnapshot

7
Motivation

● ビジネス観点

○ 金融分野では、特定の期間でのデータの保全が特に求められる

● ML観点

○ 既存モデルと新しいモデルを比較するために、

モデルの再現性を保ちたい

2. 再現性を保つDataSnapshot

8
Data Pipeline
Dataset Pipeline
Create Dataset
Cloud Composer
Engineers
①Datasetの期間を指定
 2018/10/01 ~ 2019/04/01
Scoring Pipeline
Predict Job
Kubernetes Engine
Train Job
Kubernetes Engine
②指定した期間で
 データを切出して保存
③切出したデータを元に
 Datasetを作成していく
Dataset for train/predict
Cloud Storage
Corrected data
BigQuery
DataSnapshot
BigQuery
Mercari/Merpay DB
BigQuery
3. データ不整合を解消するDataCorrection

9
Motivation

● キャンペーンなどで、特定の期間のデータが歪むことがある

● 支払い履歴データの転送遅延など

    → 該当のデータを修正あるいは除外したい
Engineers
Data Pipeline
Dataset Pipeline
Dataset for train/predict
Cloud Storage
Create Dataset
Cloud Composer
Corrected data
BigQuery
DataSnapshot
BigQuery
Mercari/Merpay DB
BigQuery
Correction Rule
BigQuery
予め設定したルールに従って
データを修正 / 除外
4. Microservice環境下でのDataValidation

10
Motivation

● データのスキーマは、各microserviceに任されているため

データの範囲や分布が変わる可能性がある

    

→ データが変わったことにすぐに気づきたい

Data Pipeline
Dataset Pipeline
4. Microservice環境下でのDataValidation

11
Tensorflow Data Validation

● 予め作成したschemaに一致しているかチェックする





Engineers
Create Dataset
Cloud Composer
Dataset for train/predict
Cloud Storage
Mercari/Merpay DB
BigQuery
Scoring Pipeline
Predict Job
Kubernetes Engine
Train Job
Kubernetes Engine
feature {
name: `event`
presence: {min_fraction: 1 }
value_count: {
min: 1
max: 1
}
type: BYTES
string_domain {
value: `CLICK`
value: `CONVERSION`
}
}
データから、
ある程度自動生成される
データから、
ある程度自動生成される
細かい調整をする
ご清聴ありがとうございました

More Related Content

Similar to メルペイあと払いを実現するData Pipeline

先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際Tetsutaro Watanabe
 
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例Shinji Tamura
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataNTT DATA Technology & Innovation
 
Azure Machine Learning アップデートセミナー 20191127
Azure Machine Learning アップデートセミナー 20191127Azure Machine Learning アップデートセミナー 20191127
Azure Machine Learning アップデートセミナー 20191127Keita Onabuta
 
Power Appsで Excel関数を利用する3つの方法
Power Appsで Excel関数を利用する3つの方法Power Appsで Excel関数を利用する3つの方法
Power Appsで Excel関数を利用する3つの方法Nagao Hiroaki
 
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介IBM Analytics Japan
 
Azure API Management 俺的マニュアル
Azure API Management 俺的マニュアルAzure API Management 俺的マニュアル
Azure API Management 俺的マニュアル貴志 上坂
 
Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623Shotaro Suzuki
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformDaiyu Hatakeyama
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群Google Cloud Platform - Japan
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...Google Cloud Platform - Japan
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介Denodo
 
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速するISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速するMiyuki Mochizuki
 
AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方Shota Suzuki
 
Feature Store in DRIVE CHART
Feature Store in DRIVE CHARTFeature Store in DRIVE CHART
Feature Store in DRIVE CHARTemakryo
 
Office ScriptsとPower Automate連携による業務効率化
Office ScriptsとPower Automate連携による業務効率化Office ScriptsとPower Automate連携による業務効率化
Office ScriptsとPower Automate連携による業務効率化kinuasa
 
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)Techno Project Co., Ltd.
 
キャバァーン! サツバツエアアイオー弐〇壱弐
キャバァーン! サツバツエアアイオー弐〇壱弐キャバァーン! サツバツエアアイオー弐〇壱弐
キャバァーン! サツバツエアアイオー弐〇壱弐Kei Nakazawa
 

Similar to メルペイあと払いを実現するData Pipeline (20)

データから価値を生み続けるには
データから価値を生み続けるにはデータから価値を生み続けるには
データから価値を生み続けるには
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
 
Azure Machine Learning アップデートセミナー 20191127
Azure Machine Learning アップデートセミナー 20191127Azure Machine Learning アップデートセミナー 20191127
Azure Machine Learning アップデートセミナー 20191127
 
Power Appsで Excel関数を利用する3つの方法
Power Appsで Excel関数を利用する3つの方法Power Appsで Excel関数を利用する3つの方法
Power Appsで Excel関数を利用する3つの方法
 
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
 
Azure API Management 俺的マニュアル
Azure API Management 俺的マニュアルAzure API Management 俺的マニュアル
Azure API Management 俺的マニュアル
 
Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速するISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
 
AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方
 
Feature Store in DRIVE CHART
Feature Store in DRIVE CHARTFeature Store in DRIVE CHART
Feature Store in DRIVE CHART
 
Office ScriptsとPower Automate連携による業務効率化
Office ScriptsとPower Automate連携による業務効率化Office ScriptsとPower Automate連携による業務効率化
Office ScriptsとPower Automate連携による業務効率化
 
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)
 
キャバァーン! サツバツエアアイオー弐〇壱弐
キャバァーン! サツバツエアアイオー弐〇壱弐キャバァーン! サツバツエアアイオー弐〇壱弐
キャバァーン! サツバツエアアイオー弐〇壱弐
 

メルペイあと払いを実現するData Pipeline