MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata

© 2019 NTT DATA Corporation
2019/12/4
Japan Taxi / 渡部徹太郎
株式会社NTTデータ OSSプロフェッショナルサービス/ 土橋昌
MLOps と Strata Data Conference NY 参加報告

© 2019 NTT DATA Corporation 2
1. 自己紹介
2. カンファレンス概要
3. セッション紹介（土橋）
4. セッション紹介（渡部）
• 本スライドに記載されている会社名、システム名、製
品名は一般に各社の登録商標または商標です。
• 本スライドに記載の内容は必ずしも当社の統一見解を
示すものではありません。

自己紹介

渡部徹太郎（Japan Taxi）
自己紹介
土橋昌（NTTデータ）
 経歴
2010年頃に当時国内最大級の
千台超えのHadoopクラスタ開発
に携わって以来、OSSによる
大規模並列分散処理基盤の研究
開発・システム開発に従事。
現在はストリームデータ活用基盤、
機械学習基盤など。
 登壇・採録・執筆など
Strata Data Conference、USENIX OpML、
Kafka Summit、Spark Summit、
翔泳社「Apache Spark入門」、
同「Apache Kafka」、他多数
■ 経歴
NRIにてオンライントレード
システム基盤担当とオープン
ソース技術部隊を経験。
リクルートテクノロジーズでは全社
の横断分析基盤を担当。
また、日本AWSユーザ会ビッグ
データ支部を設立。
現在はJapanTaxiにてデータ
エンジニアを担当。
■登壇・採録・執筆など
Google Cloud Next Tokyo 2018,
Microsoft De:code 2016 他登壇多数
書籍の執筆は→

https://sites.google.com/view/sig-mlse/wg
• プロセス・事例収集WG
• システム基礎WG
• 本番適用のためのインフラと運用WG
宣伝？）機械学習工学研究会 WG
モチベーション:
試行錯誤から本番適用にもっていくにあたり、継続的に改善を続
けていく上で適切な機械学習システムを作るため
- 論文になりづらいLesson Learntを収集し
- アーキテクチャパターンを体系化したい
(鷲崎先生の取り組み [Washizaki 2019]以外、まだ十分に整備されていない)

カンファレンス概要

Hudson Mercantile New York City, 9/24
https://www.mlopsnyc.com/
 印象
• Meetupを大きくした感じ
• 分析者、エンジニアが多め
• ハイアリングを主体としたブースもある
• テックジャイアント、データ分析関連企業
の登壇が目立つ
 スポンサー
MLOps NYC
 主旨
“focus on managing and
automating machine learning pipelines,
to bring data science into real business
applications. “
 会場の様子

Javits Center, 9/23 - 26
https://conferences.oreilly.com/strata/str
ata-ny
 会場の様子
Strata Data Conference New York
 特徴的なトピック
※「data」をストップワードに含めた

Javits Center, 9/23 - 26
https://conferences.oreilly.com/strata/str
ata-ny
 会場の様子
Strata Data Conference New York
 特徴的なトピック
※「data」をストップワードに含めた
• プロダクト固有の話よりもアーキテク
チャや手法
• 機械学習、データサイエンス、モデル
• SparkとKafkaは頻出キーワード内に入っ
ている

セッション紹介

 MLOps NYC
• Using MLOps to Bring ML to Production （Microsoft）
• Nuclio関連
• 1）Real-time Financial Fraud Detection （Payoneer）
• 2）Serverless for ML Pipelines from A to Z （Iguazio）
 Strata Data Conference
• Building a multitenant data processing and model inferencing platform with Kafka
Streams Navinder （Walmart Labs）
• Deep learning on Apache Spark at CERN’s Large Hadron Collider with Analytics
Zoo （Intel）
• Deep learning technologies for giant hogweed eradication （NTTデータ）
セッション紹介

Using MLOps to Bring ML to Production
David Aronchick, Head of Open Source ML Strategy, Microsoft

MLOps NYC（https://www.mlopsnyc.com/agenda）より引用
MS社では多数の提供サービス内でMLが
用いられている。
Office 365
1.8憶
Cortana
180憶
異常・不
正検知
6.5兆/日

KubeCon でも同様の発表あり。

データ入力～データ分割まで。
前処理関係

学習と評価
さらに大量（や長時間）の学習

ロールアウト（本番適用）
モニタリングとロギング含む

大まかな流れを理解しやすい抽象度合。
あらゆるフローがシーケンシャル。実業務
との乖離はやや大きめの印象。

補足）当チームで検討中のワークフロー
基盤の議論をするときに話の軸を合わせ
るために、以下の参考文献をベースに実
案件での経験、有識者意見を取り入れ検
討開始。
参考情報例
• “Using MLOps to Bring ML to Production”, David
Aronchick - Head of Open Source ML Strategy;
Microsoft, MLOps NYC 19, New York, US.
• “TFX: A TensorFlow-Based Production-Scale Machine
Learning Platform”, Denis Baylor, Eric Breck, Heng-Tze
Cheng, Noah Fiedel, Chuan Yu Foo, Zakaria Haque,
Salem Haykal, Mustafa Ispir, Vihan Jain, Levent Koc,
Chiu Yuen Koo, Lukasz Lew, Clemens Mewald, Akshay
Naresh Modi, Neoklis Polyzotis, Sukriti Ramesh, Sudip
Roy, Steven Euijong Whang, Martin Wicke, Jarek
Wilkiewicz, Xin Zhang, Martin Zinkevich, Proceedings of
the 23rd ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining, KDD '17, 2017.
• Cross-industry standard process for data mining,
https://en.wikipedia.org/wiki/Cross-
industry_standard_process_for_data_mining
• "AI プロダクト品質保証ガイドライン 2019.05 版", AI プ
ロダクト品質保証コンソーシアム（QA4AI コンソーシ
アム）編,
http://www.qa4ai.jp/QA4AI.Guideline.201905.pdf
絶賛編集中につき
ご注意をぜひ一緒に議論させてください

いくつかのツールを組み合わせ、「MLOps」の
システムを構成
特徴的なのはCI/CDパイプラインを中心に
処理フローを構成していること。CI/CDを通じ、
異なる環境・利用者がつながる。

コンテナで処理やモデルを
パッケージングする。
CI/CDを通じ、一連の処理が
バリデートされ、機械的に
デプロイされる。

あらゆるコンポーネント、アクティビティ
がIDでトラックされ、トレーサビリティが
担保されている。エンドツーエンドで説明
可能性を担保する。

テックジャイアントは各社の文化や方法論に合わせ適した方式を利用・開発
 MS社
CI/CDの仕組みによる資材管理と共有、TensorFlow Extended、Uber Michelangelo
 Netflix社
独自開発のMetaflow：Pythonフレームワーク。デコレーションでフローを表現できる。数十人
～数百人規模の分析者にとっての使いやすさの実現を目指す。
 Twitter社
Scalaフレームワーク。CascadingベースのScaldingを利用。多様な処理に共通の言語、フ
レームワークを利用。
 Uber社
Sparkをパイプライン構成のフレームワークとして使用。コンポーネントをEstimaterとして実装。
他の処理との統合のしやすさ。
考察）各社独特なML Ops支援機能を利用・開発

Nuclio関連
1）Real-time Financial Fraud Detection※1
2）Serverless for ML Pipelines from A to Z※2
※1 Arthur Garmider, Architect, Payoneer
※2 Orit Nissan-Messing, VP of R&D, Iguazio

1）Real-time Financial Fraud Detection
Arthur Garmider, Architect, Payoneer
• 不正検知したい
• 存在しないユーザカード
• マネーロンダリング
• ミリ秒単位で検知したい
元々は３０分ほどかかって検知していた
３０分ごとにコピーされたデータ
を対象にオフラインで不正検知
データベースからDWHにコピー

AWSベースの代替アーキテクチャ
LambdaベースのFunction数珠繋ぎ方式
SageMakerを使った簡略化
しかし、Payoneerの
一部のシステムはオ
ンプレミスに残り続
け、オンプレとクラ
ウドの行ったり来た
りで、リアルタイム
での検知に支障が生
じていた

CDCとNuclioを使って
「リアルタイム」化
Nuclioベースの代替アーキテクチャ
データの変更をキャプチャ
してキューに流す
トランザクションのテーブルと他の
テーブルをSpark Streamingで結合
Daskを使った分析
Spark等を使って作られた特徴ベクトル
を入力とし、推論する

2）Serverless for ML Pipelines from A to Z
Orit Nissan-Messing, VP of R&D, Iguazio
リアルタイムの製品レコメンドにおけるデータフローの例
前処理して学習に用いる
モデルをAPIサーバに連携させる
APIを通じて推論結果を得る
推論
学習
前処理

レコメンデーションのフロー
IngestionでNuclioを用いて効率化？
シングルスレッドの
Python？
ノン・ブロッキング
の並列処理

レコメンデーションのフロー
モデルサービングにNuclioを利用
性能差異の理由に
関して言及なし

MLパイプラインをFunctionで構成
ステートレス
ステートフル
異なるFunction間を
つなぐ肝となる

定義：
Automate the Data Science Pipeline with Serverless Functions
⇒パッケージ化されたFunctionをデプロイ可能なFunction実行アーキテクチャ
主要開発母体：
iguazio
個人的な考察：
• イベント駆動処理を簡易に実装、
デプロイするのにはよさそう
• 並列分散処理内で集約等の処理を
伴うようなものは載せづらそう。
バックグラウンドで処理させることになる？
（フロー管理がどの程度可能かも気になる）
• イベント駆動で推論するケースでは
便利そう
補足）Nuclioについて
引用）https://github.com/nuclio/nuclio/
アーキテクチャ概要
コンテナ等の形
式でデプロイ

補足）ストリームデータ推論システムの2種類の考え方
メッセージングシステム中心に考えると… 処理エンジン・フロー中心に考えると…
メ
ッ
セ
ー
ジ
ン
グ
シ
ス
テ
ム
処理
処理
処理
e.g. 前処理
処理
e.g.推論
処理
e.g.推論
作られた特徴ベクトルを
入力とし、推論して戻す
推論結果のストリーム
データを外部に書き出す
外部
システム
実際には中間結果をメッ
セージングシステムなど
に書き出すこともある
作られた特徴ベクトルを
入力とし、推論を出力
外部
システム
処理
e.g.前処理
ストリームデータを加工する

Building a multitenant data processing and model inferencing
platform with Kafka Streams Navinder
Pal Singh Brar (Walmart Labs)

Strata Data Conference New York 2019（https://conferences.oreilly.com/strata/strata-ny）より引用
Walmartでは多数MLを用いている。
例えば適切なタイミングでメールを
お送りたい、など。
顧客情報基盤
RocksDB、
Kafka Streams
顧客情報基盤上でデータ
サイエンティストが機械
学習モデルを取りまわす

参考：CRISP-DM
引用 https://en.wikipedia.org/wiki/Cross-
industry_standard_process_for_data_m
ining
Walmartでのデータサイエンスモデルサイクル
50%超の時間がデータ
収集とクリーニングに
用いられている

何かしらの
イベントが
入力される
いったん
Kafkaに格納
Kafka Stramsで
推論用のモデル
をラップ
業務の区切り＝
パーティション
複数業務シナリオが
Kafka Streams基盤
で動作する

シリアルな処理フローパラレルな処理フロー
互いの影響小
互いの影響大
同じイベントを複
数のモデルが使う
Pull型のアーキテクチャを採用

オフセットはモデ
ルごとに管理
CBBプロセッサがイ
ベントを書き込み
モデルが端からpull
して処理する
店舗情報、顧客情報と合わせて
シーケンス・ストアを用いること
で、イベントの順序を考慮する

11000店舗、27か国を対象

• Q. 一貫性は？
• バッチ処理で改修。リアルタイム処理は「確率的な」考え方になっている。
• Q. CBBデータは複雑？
• エンティティを管理する別DBが存在。
• Q. 依存関係はどう管理？
• Jarに入れる

補足）当チームで考えている抽象アーキテクチャイメージ
先に例示したワークフローを動かす基盤
のアブストラクトを整理する営みを脈々
と続けている。
試行錯誤から始まり、最終的に本番で運
用し続けていく流れを踏まえて、一般的
なエンタープライズで用いるアーキテク
チャはどうあるべきか？を議論しつづけ
る。
ご注意を
ご注意を
ぜひ一緒に議論させてください
ぜひ一緒に議論させてください

Deep learning on Apache Spark at CERN’s Large Hadron
Collider with Analytics Zoo
Sajan Govindan (Intel)

Deep learning on Apache Spark at CERN’s Large Hadron Collider
with Analytics Zoo
• 分析向けのソフトウェアス
タック
• コンセプト：ラップトップ
からプロダクションまでつ
なげる
ユースケース例
数年前と比べて着実に増えた？

• 0.2.0の時：
• Analytics + AI Platform for Apache Spark and BigDL.
• 2019/12現在：
• A unified analytics + AI platform for distributed TensorFlow, Keras, PyTorch and BigDL on
Apache Spark
補足）Analytics Zooについて
BigDL等をラップし、便利に使えるように仕立てたもの。よ
りハイレベルのAPIを利用できるようになる。（BigDL自体
ハイレベルAPIを提供しているが…）
例えば簡単に画像を扱いやすいように…など。
分散 / 非分散を透過的に使えるようにする工夫など
引用元）https://github.com/intel-analytics/analytics-zoo

with Analytics Zoo
著名な事例としてのCERN
CERNの過去講演など
• CERN’s Next Generation Data
Analysis Platform with Apache
Spark （Spark Summit EU
2018）
• Hadoop and Spark services at
CERN （Dataworks Summit EU
2018）
• Taming Billions of Metrics and
Logs at Scale: Two Years with
Kafka as a Central Data Hub
for Monitoring @ CERN
（Kafka Summit London
2018）
などなど
大型ハドロン衝突型加速器
（LHC）
CERNは過去にOSS関係のカンファレン
スでよく登壇していた。常連。

with Analytics Zoo
LHCでは大量のデータが生じる。
分析対象のデータを抽出する必
要がある。
リアルタイムにフィルタしたい。
要は「関心のあるデータ」だけ
を取り出したいのだが、それは
簡単なことではない。

with Analytics Zoo
フィルタの質を上げるための
深層学習パイプライン
False Positiveを減らす。興味
深い現象だけ残す。
YARNとk8sの両方。過去の講演
から考えて、おそらく古くから
Hadoopを使っており、後から
k8sが入っていたと思われる。

with Analytics Zoo
EOS Storageを用いてる。
HDFS APIからJNI経由で透
過的に利用。
参考）https://eos.com/eos-storage/
独自のコネクタを開発し、
XRootDプロトコルとつなぐ。
$ spark-shell --master local[*] --conf spark.driver.extraClassPath=<PATH>/hadoop-xrootd-1.0.4-jar-
with-dependencies.jar
scala> val df=spark.read.parquet("root://eosuser/eos/user/..PATH../test1.parquet")
scala> df.coalesce(4).write.parquet("root://eosuser/eos/user/..PATH../test1_COPIED.parquet"))
引用）https://github.com/cerndb/hadoop-xrootd

補足）hadoop-xrootdでEOSストレージを利用するためのAPI例
public FSDataOutputStream create(Path p, FsPermission permission, boolean overwrite, int bufferSize,
short replication, long blockSize, Progressable progress) throws IOException {
initHandle();
String filespec = uri.getScheme() + "://" + uri.getAuthority() + "/" + toFilePath(p);
eosDebugLogger.printDebug("EOSfs create issued for " + filespec);
int writeBufferSize = this.conf.getWriteBufferSize();
return new FSDataOutputStream(
new BufferedOutputStream(
new XRootDOutputStream(filespec, permission, overwrite),
writeBufferSize
),
statistics
);
}
ch/cern/eos/XRootDFileSystem.java:110
private native long writeFile(long handle, long pos, byte buffer[], int off, int len);
ch.cern.eos.XRootDClFile#writeFile
JNIEXPORT jlong JNICALL Java_ch_cern_eos_XRootDClFile_writeFile (JNIEnv *env, jobject This, jlong
handle, jlong filepos, jbyteArray b, jint off, jint len) {
src/main/cpp/ch_cern_eos_XRootDClFile.cpp:140
org.apache.hadoop.fs.FileSystem を
継承したFSDataOutputStream内で
FSDataOutputStreamが用いられて
いる。
FSDataOutputStream#writeFileを経
由してXRootDプロトコルでEOSス
トレージに接続する。
引用）https://github.com/cerndb/hadoop-xrootd

Deep learning technologies for giant hogweed eradication
Naoto Umemori (NTT DATA), Masaru Dobashi (NTT DATA)

Deep learning technologies for giant hogweed eradication
Naoto Umemori (NTT DATA), Masaru Dobashi (NTT DATA)
ドローンから撮影した画像を入力として
危険外来植物を見つけるプロジェクト
当該プロジェクトを題材としつつ、システム基盤のアーキテクチャに
関する考察をいくつか紹介。O’Reilly Safariから講演ビデオ（スライ
ド）も見られるのでよろしければどうぞ。
https://conferences.oreilly.com/strata/strata-
ny/public/schedule/detail/77836

MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata

Similar to MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata (20)

More from NTT DATA Technology & Innovation

More from NTT DATA Technology & Innovation (20)

Recently uploaded

Recently uploaded (8)

MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata