Submit Search
Upload
メルペイあと払いを実現するData Pipeline
•
0 likes
•
104 views
S
SatoshiMatsuzaki1
Follow
2019/8/27 メルペイMachineLearning meetupの発表資料です。 https://mercari.connpass.com/event/142853/
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 12
Download now
Download to read offline
Recommended
Accord.netによる線形回帰
Accord.netによる線形回帰
池田 直哉
メルペイの与信モデリングで安全・安心のために実践していること
メルペイの与信モデリングで安全・安心のために実践していること
Yuhi Kawakami
いまできるデータ分析を Power BI ではじめよう
いまできるデータ分析を Power BI ではじめよう
Yugo Shimizu
Kubernetesによる機械学習基盤、楽天での活用事例 覃子麟 (チンツーリン) /楽天株式会社
Kubernetesによる機械学習基盤、楽天での活用事例 覃子麟 (チンツーリン) /楽天株式会社
Rakuten Group, Inc.
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
stapy_028_talk1
stapy_028_talk1
Takeshi Akutsu
スマートエスイーセミナー:機外学習応用システムパターンの例
スマートエスイーセミナー:機外学習応用システムパターンの例
HironoriTAKEUCHI1
Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」
Takeshi Akutsu
Recommended
Accord.netによる線形回帰
Accord.netによる線形回帰
池田 直哉
メルペイの与信モデリングで安全・安心のために実践していること
メルペイの与信モデリングで安全・安心のために実践していること
Yuhi Kawakami
いまできるデータ分析を Power BI ではじめよう
いまできるデータ分析を Power BI ではじめよう
Yugo Shimizu
Kubernetesによる機械学習基盤、楽天での活用事例 覃子麟 (チンツーリン) /楽天株式会社
Kubernetesによる機械学習基盤、楽天での活用事例 覃子麟 (チンツーリン) /楽天株式会社
Rakuten Group, Inc.
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
stapy_028_talk1
stapy_028_talk1
Takeshi Akutsu
スマートエスイーセミナー:機外学習応用システムパターンの例
スマートエスイーセミナー:機外学習応用システムパターンの例
HironoriTAKEUCHI1
Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」
Takeshi Akutsu
データから価値を生み続けるには
データから価値を生み続けるには
Recruit Lifestyle Co., Ltd.
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
Tetsutaro Watanabe
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例
Shinji Tamura
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
NTT DATA Technology & Innovation
Azure Machine Learning アップデートセミナー 20191127
Azure Machine Learning アップデートセミナー 20191127
Keita Onabuta
Power Appsで Excel関数を利用する3つの方法
Power Appsで Excel関数を利用する3つの方法
Nagao Hiroaki
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
IBM Analytics Japan
Azure API Management 俺的マニュアル
Azure API Management 俺的マニュアル
貴志 上坂
Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623
Shotaro Suzuki
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Daiyu Hatakeyama
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
Google Cloud Platform - Japan
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
Denodo
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
Miyuki Mochizuki
AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方
Shota Suzuki
Feature Store in DRIVE CHART
Feature Store in DRIVE CHART
emakryo
Office ScriptsとPower Automate連携による業務効率化
Office ScriptsとPower Automate連携による業務効率化
kinuasa
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)
Techno Project Co., Ltd.
キャバァーン! サツバツエアアイオー弐〇壱弐
キャバァーン! サツバツエアアイオー弐〇壱弐
Kei Nakazawa
More Related Content
Similar to メルペイあと払いを実現するData Pipeline
データから価値を生み続けるには
データから価値を生み続けるには
Recruit Lifestyle Co., Ltd.
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
Tetsutaro Watanabe
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例
Shinji Tamura
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
NTT DATA Technology & Innovation
Azure Machine Learning アップデートセミナー 20191127
Azure Machine Learning アップデートセミナー 20191127
Keita Onabuta
Power Appsで Excel関数を利用する3つの方法
Power Appsで Excel関数を利用する3つの方法
Nagao Hiroaki
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
IBM Analytics Japan
Azure API Management 俺的マニュアル
Azure API Management 俺的マニュアル
貴志 上坂
Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623
Shotaro Suzuki
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Daiyu Hatakeyama
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
Google Cloud Platform - Japan
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
Denodo
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
Miyuki Mochizuki
AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方
Shota Suzuki
Feature Store in DRIVE CHART
Feature Store in DRIVE CHART
emakryo
Office ScriptsとPower Automate連携による業務効率化
Office ScriptsとPower Automate連携による業務効率化
kinuasa
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)
Techno Project Co., Ltd.
キャバァーン! サツバツエアアイオー弐〇壱弐
キャバァーン! サツバツエアアイオー弐〇壱弐
Kei Nakazawa
Similar to メルペイあと払いを実現するData Pipeline
(20)
データから価値を生み続けるには
データから価値を生み続けるには
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
Azure Machine Learning アップデートセミナー 20191127
Azure Machine Learning アップデートセミナー 20191127
Power Appsで Excel関数を利用する3つの方法
Power Appsで Excel関数を利用する3つの方法
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
Azure API Management 俺的マニュアル
Azure API Management 俺的マニュアル
Logs are better with elastic apm 20210623
Logs are better with elastic apm 20210623
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
Data-Centric AIの紹介
Data-Centric AIの紹介
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
ISID×MS_DLLAB_企業のデータ&AI活用をAzureで加速する
AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方
Feature Store in DRIVE CHART
Feature Store in DRIVE CHART
Office ScriptsとPower Automate連携による業務効率化
Office ScriptsとPower Automate連携による業務効率化
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)
キャバァーン! サツバツエアアイオー弐〇壱弐
キャバァーン! サツバツエアアイオー弐〇壱弐
メルペイあと払いを実現するData Pipeline
1.
メルペイあと払いを実現するData Pipeline @shigeru メルカリxメルペイ MachineLearning
Meetup 2019 / 08 / 27
2.
自己紹介 2 ● 名前 Satoshi Matsuzaki
(@shigeru) ● 職種 Software Engineer / Machine Learning(SysML) ● やってきたこと ○ 前職 ■ ECサイトのレコメンドロジックの開発 ■ 機械学習によるマルウェア検知技術の開発 ○ メルペイ (2018/10 〜) ■ メルカリ・メルペイデータの分析 ■ 機械学習基盤の設計/実装/運用
3.
Agenda 1. メルペイあと払いを実現するDataPipeline 2. 再現性を保つDataSnapshot 3.
データ不整合を解消するDataCorrection 4. Microservice環境下でのDataValidation
4.
Train/Predict Pipeline Engineers Data Pipeline Mercari/Merpay
DB BigQuery Predict Result BigQuery Datasets Cloud Storage Models Cloud Storage load dataset Create Dataset Cloud Composer Train/Predict Image Container Registry loads save Predict Job Kubernetes Engine Train Job Kubernetes Engine load image dump Monitoring Logging 4 1. メルペイあと払いを実現するDataPipeline Query ⑥あと払い連携
5.
5 Airflow(Cloud Composer) ● タスクの依存関係をDAGで定義するWorkflow
Engine. ● 複数のtableを参照して、学習に必要なDatasetを並列で作成している Airflow(Cloud Composer)によるDataset生成
6.
Scoring Pipeline Data Pipeline Dataset
Pipeline Dataset for train/predict Cloud Storage Create Dataset Cloud Composer Engineers Corrected data BigQuery DataSnapshot BigQuery Mercari/Merpay DB BigQuery 6 データ不整合を解消する DataCorrection 再現性を保つ DataSnapshot Airflow(Cloud Composer)によるDataset生成 Predict Job Kubernetes Engine Train Job Kubernetes Engine Microservice環境下での DataValidation ①任意のタイミングでキック ②Cron設定によるキック
7.
2. 再現性を保つDataSnapshot 7 Motivation ● ビジネス観点 ○
金融分野では、特定の期間でのデータの保全が特に求められる ● ML観点 ○ 既存モデルと新しいモデルを比較するために、 モデルの再現性を保ちたい
8.
2. 再現性を保つDataSnapshot 8 Data Pipeline Dataset
Pipeline Create Dataset Cloud Composer Engineers ①Datasetの期間を指定 2018/10/01 ~ 2019/04/01 Scoring Pipeline Predict Job Kubernetes Engine Train Job Kubernetes Engine ②指定した期間で データを切出して保存 ③切出したデータを元に Datasetを作成していく Dataset for train/predict Cloud Storage Corrected data BigQuery DataSnapshot BigQuery Mercari/Merpay DB BigQuery
9.
3. データ不整合を解消するDataCorrection 9 Motivation ● キャンペーンなどで、特定の期間のデータが歪むことがある ●
支払い履歴データの転送遅延など → 該当のデータを修正あるいは除外したい Engineers Data Pipeline Dataset Pipeline Dataset for train/predict Cloud Storage Create Dataset Cloud Composer Corrected data BigQuery DataSnapshot BigQuery Mercari/Merpay DB BigQuery Correction Rule BigQuery 予め設定したルールに従って データを修正 / 除外
10.
4. Microservice環境下でのDataValidation 10 Motivation ● データのスキーマは、各microserviceに任されているため データの範囲や分布が変わる可能性がある →
データが変わったことにすぐに気づきたい
11.
Data Pipeline Dataset Pipeline 4.
Microservice環境下でのDataValidation 11 Tensorflow Data Validation ● 予め作成したschemaに一致しているかチェックする Engineers Create Dataset Cloud Composer Dataset for train/predict Cloud Storage Mercari/Merpay DB BigQuery Scoring Pipeline Predict Job Kubernetes Engine Train Job Kubernetes Engine feature { name: `event` presence: {min_fraction: 1 } value_count: { min: 1 max: 1 } type: BYTES string_domain { value: `CLICK` value: `CONVERSION` } } データから、 ある程度自動生成される データから、 ある程度自動生成される 細かい調整をする
12.
ご清聴ありがとうございました
Download now