Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
© 2020 NTT DATA Corporation
2020年 2月 10日
株式会社NTTデータ システム技術本部 生産技術部
インテグレーション技術センタ OSSプロフェッショナルサービス
エグゼクティブITスペシャリスト
土橋 昌
日...
© 2020 NTT DATA Corporation 2
自己紹介
土橋 昌(どばし まさる)
エグゼクティブITスペシャリスト・課長
NTTデータ インテグレーション技術センタ / OSSプロフェッショナルサービス
• 専門分野は、オープン...
© 2020 NTT DATA Corporation 3
MLSE「本番適用のためのインフラと運用WG」について
• プロセス・事例収集WG
• システム基礎WG
• 本番適用のためのインフラと運用WG
– 試行錯誤から本番適用にもっていくに...
© 2020 NTT DATA Corporation 4
ワークフロー討論会の動機や目的
• 議論の発端
• インフラと運用のノウハウを議論するにあたり、専門家各自が
前提としているワークフロー(プロセス)が食い違っていないか?
⇒今のタイミ...
© 2020 NTT DATA Corporation 5
ワークフロー討論会のアジェンダと進め方
• 冒頭で「叩き台」、「議論の着火点」となるワークフロー図について紹介
• 実経験を基にワークフローに対して意見募集
• ワークフローを基にしつ...
© 2020 NTT DATA Corporation 6
討論会の補足
• 議論した内容は極力メモ等に残すことにし、登壇資料と合わせて後日
公開したいと考えています
• 積極的なご意見をお願いいたします
• 本日最初の発言時には、一言自己紹介...
© 2020 NTT DATA Corporation 7
アンケートから引用
例えば、システム全体を考えた機械学習基盤の繋ぎこみ、開発から本番に至るときの苦労・工夫は?
カテゴリ トピック
アセット管理 データセット・モデル・ソースコードの管...
© 2020 NTT DATA Corporation
2020年 2月 10日
株式会社NTTデータ システム技術本部 生産技術部
インテグレーション技術センタ 萩原 悠二
AI/ML開発・運用ワークフロー検討案
MLSE 本番適用のためのイ...
© 2020 NTT DATA Corporation 9
自己紹介
氏名:萩原 悠二(はぎわら ゆうじ)
所属:NTTデータ 技術革新統括本部 システム技術本部 生産技術部
業務内容:
• Hadoop/Spark等を用いた商用案件の設計・検...
© 2020 NTT DATA Corporation 10
はじめに
MLSE 本番適用のためのインフラと運用WGにおいて、インフラデザインやその運用方法について考えていくこと
を目的に、機械学習のためのワークフローの叩き台を提起させていただ...
© 2020 NTT DATA Corporation 11
アジェンダ
1. 用語定義
2. 対象とする範囲
3. 参考にした公開情報
4. 全体像
5. 個別
1. 初期学習(試行錯誤)
2. 初期学習(大規模)
3. 本番用推論
4. 継...
© 2020 NTT DATA Corporation 12
連携
システム
対象とする範囲
機械学習のモジュールが対象範囲であり、それを含むシステム全体や連携システムを対象としない。
AI/MLを含むシステム
機械学習
モジュール
連携システ...
© 2020 NTT DATA Corporation 13
用語定義
■MLモデル
• 機械学習で使われる数理モデルの構造およびパラメータ
• 例えば、ニューラルネットワークにおいてはネットワーク構造と各ニューロンの重み
• 具体的技術で言え...
© 2020 NTT DATA Corporation 14
参考にした公開情報
“Using MLOps to Bring ML to Production”, David Aronchick-Head of Open Source
ML S...
© 2020 NTT DATA Corporation 15
全体像(1/2)
1 データサイエンティスト
・試行錯誤による洞察
データエンジニア
・データ収集、変換のシステム化
インフラエンジニア
・インフラ設計、構築、運用
2
4
機械学習...
© 2020 NTT DATA Corporation 16
議論にあたって
以降、ワークフロー案の詳細について一通り説明いたします。
この後のディスカッション時間におかれましては、この案をたたき台としてインフラデザインや運用を検討しようと考え...
© 2020 NTT DATA Corporation 17
全体像(2/2)
初期学習
(試行錯誤)
初期学習
(大規模)
継続的学習 本番用推論
• ビジネス上の課題を解くた
めに、試行錯誤で
• データの性質を分
析し、
• MLモデルを...
© 2020 NTT DATA Corporation 18
全体像(2/2)
初期学習
(試行錯誤)
初期学習
(大規模)
継続的学習 本番用推論
• ビジネス上の課題を解くた
めに、試行錯誤で
• データの性質を分
析し、
• MLモデルを...
© 2020 NTT DATA Corporation 19
個別1: 初期学習(試行錯誤) ■データ収集
解きたいビジネス課題に寄与するかもしれないデータセットを、仮説ベースで選定し、収集する。
※ラベル付けタスクのためのシステム環境、インフ...
© 2020 NTT DATA Corporation 20
個別1: 初期学習(試行錯誤) ■データ収集
解きたいビジネス課題に寄与するかもしれないデータセットを、仮説ベースで選定し、収集する。
※ラベル付けタスクのためのシステム環境、インフ...
© 2020 NTT DATA Corporation 21
個別2: 初期学習(大規模)
■大規模対応開発
試行錯誤で実装したデータ変換や学習器、推論器のアプローチをもとに、大規模データの学習向けに実行可能なシステムを開発する。
・試行錯誤の...
© 2020 NTT DATA Corporation 22
個別2: 初期学習(大規模)
■大規模対応開発
試行錯誤で実装したデータ変換や学習器、推論器のアプローチをもとに、大規模データの学習向けに実行可能なシステムを開発する。
・試行錯誤の...
© 2020 NTT DATA Corporation 23
個別3: 本番用推論 ■本番用推論処理パイプライン開発
本番用推論を行うための処理パイプラインを設計し実装する。
■本番用推論対象データ収集
推論したい対象のデータセットをストレージ...
© 2020 NTT DATA Corporation 24
個別3: 本番用推論 ■本番用推論処理パイプライン開発
本番用推論を行うための処理パイプラインを設計し実装する。
■本番用推論対象データ収集
推論したい対象のデータセットを得る。
■...
© 2020 NTT DATA Corporation 25
個別4: 継続的学習 ■継続的学習計画策定
継続的学習において、何を契機に、どのようなハイパーパラメータで学習を実施するかの計画を定める。
■継続的学習処理パイプライン開発
継続的学...
© 2020 NTT DATA Corporation 26
個別4: 継続的学習 ■継続的学習計画策定
継続的学習において、何を契機に、どのようなハイパーパラメータで学習を実施するかの計画を定める。
■継続的学習処理パイプライン開発
継続的学...
© 2020 NTT DATA Corporation
Upcoming SlideShare
Loading in …5
×

AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)

317 views

Published on

日本ソフトウェア科学会
機械学習工学研究会 (MLSE)
本番適用のためのインフラと運用WG主催 討論会
2020年2月10日

AI/ML開発・運用ワークフロー検討案

NTTデータ
土橋 昌/萩原 悠二

Published in: Technology
  • Be the first to comment

AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)

  1. 1. © 2020 NTT DATA Corporation 2020年 2月 10日 株式会社NTTデータ システム技術本部 生産技術部 インテグレーション技術センタ OSSプロフェッショナルサービス エグゼクティブITスペシャリスト 土橋 昌 日本ソフトウェア科学会 機械学習工学研究会 (MLSE) 本番適用のためのインフラと運用WG ワークフロー討論会
  2. 2. © 2020 NTT DATA Corporation 2 自己紹介 土橋 昌(どばし まさる) エグゼクティブITスペシャリスト・課長 NTTデータ インテグレーション技術センタ / OSSプロフェッショナルサービス • 専門分野は、オープンソースソフトウェア活用、 データ活用基盤、分散処理 • Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に 関する研究開発、システム開発を主導 経歴 登壇 ・ 出版 など • 技術カンファレンス Strata Data Conference, Spark Summit, Kafka Summit, Hadoop/Spark Conference Japan, USENIX OpML 等 多数登壇・採録 • 翔泳社 『Apache Spark入門』、 『Apache Kafka 分散メッセージング システムの構築と活用』 など執筆・監修
  3. 3. © 2020 NTT DATA Corporation 3 MLSE「本番適用のためのインフラと運用WG」について • プロセス・事例収集WG • システム基礎WG • 本番適用のためのインフラと運用WG – 試行錯誤から本番適用にもっていくにあたり、継続的に改善を 続けていく上で適切な機械学習システムを作るため… • 論文になりづらいLesson Learntを収集し、 • アーキテクチャパターンを体系化する https://sites.google.com/view/sig-mlse/wg
  4. 4. © 2020 NTT DATA Corporation 4 ワークフロー討論会の動機や目的 • 議論の発端 • インフラと運用のノウハウを議論するにあたり、専門家各自が 前提としているワークフロー(プロセス)が食い違っていないか? ⇒今のタイミングで意見を集約したい • 目的 • 今後インフラと運用の議論を深めるにあたって十分と思えるワー クフローを定義する
  5. 5. © 2020 NTT DATA Corporation 5 ワークフロー討論会のアジェンダと進め方 • 冒頭で「叩き台」、「議論の着火点」となるワークフロー図について紹介 • 実経験を基にワークフローに対して意見募集 • ワークフローを基にしつつ、いくつかインフラと運用に関して議論 項目 登壇者 時間 本討論会について(目的、目標) 土橋 5分 討論会の進め方 土橋 5分 ワークフローたたき台について 萩原 20分~30分 ディスカッション 参加者 60分~90分 クロージング 土橋 5分
  6. 6. © 2020 NTT DATA Corporation 6 討論会の補足 • 議論した内容は極力メモ等に残すことにし、登壇資料と合わせて後日 公開したいと考えています • 積極的なご意見をお願いいたします • 本日最初の発言時には、一言自己紹介をいただけますと助かります • 例:xxのyyです。日ごろはzzを業務で取り組んでいます。 • ファシリテーションは土橋が行います • 入館バッヂはお帰りの際に土橋、萩原、利光のいずれかにお渡しくださ い。
  7. 7. © 2020 NTT DATA Corporation 7 アンケートから引用 例えば、システム全体を考えた機械学習基盤の繋ぎこみ、開発から本番に至るときの苦労・工夫は? カテゴリ トピック アセット管理 データセット・モデル・ソースコードの管理 アセット管理 非構造化データの保存方法とバージョン管理 開発手法 Javaで構築されたシステムに対する機械学習の統合の方法論 開発手法 分析コードの本番化 開発手法 運用コストの低いワークフロー 環境 分析環境の管理 環境 周辺システムとのインテグレーション 環境 コンテナオーケストレーションの活用 事例 ワークフロー成功・失敗例 性能 Barrier conditions to ensure/constrain performance within bounds (control). チームビルディング 開発と運用の体制移行、引継ぎ、役割分担 チームビルディング 業務に近いメンバの参画の仕方 トラブルシュート 問題発生時の切り分けを含むシステム全体の運用 ライフサイクル管理 モデルのライフサイクル管理・デプロイ、ガバナンス、トレーサビリティ、監視 ライフサイクル管理 本番デプロイをサービス断なしでやる手法
  8. 8. © 2020 NTT DATA Corporation 2020年 2月 10日 株式会社NTTデータ システム技術本部 生産技術部 インテグレーション技術センタ 萩原 悠二 AI/ML開発・運用ワークフロー検討案 MLSE 本番適用のためのインフラと運用WG ワークフロー討論会
  9. 9. © 2020 NTT DATA Corporation 9 自己紹介 氏名:萩原 悠二(はぎわら ゆうじ) 所属:NTTデータ 技術革新統括本部 システム技術本部 生産技術部 業務内容: • Hadoop/Spark等を用いた商用案件の設計・検証支援 • 機械学習を活用するビッグデータ基盤の研究開発 • 各種OSSのサポート提供 • 外部発表、記事執筆など
  10. 10. © 2020 NTT DATA Corporation 10 はじめに MLSE 本番適用のためのインフラと運用WGにおいて、インフラデザインやその運用方法について考えていくこと を目的に、機械学習のためのワークフローの叩き台を提起させていただきたいと思います。 討論会における皆様の活発なご意見・ご発言を通じて、WG活動に資する議論ができますと幸いです。 ■目指すゴール(イベントページより) • 「このワークフローならば、インフラや運用議論の土台としてちょうどよい」という粒度のワークフローを、暫定でも よいので描く。
  11. 11. © 2020 NTT DATA Corporation 11 アジェンダ 1. 用語定義 2. 対象とする範囲 3. 参考にした公開情報 4. 全体像 5. 個別 1. 初期学習(試行錯誤) 2. 初期学習(大規模) 3. 本番用推論 4. 継続的学習
  12. 12. © 2020 NTT DATA Corporation 12 連携 システム 対象とする範囲 機械学習のモジュールが対象範囲であり、それを含むシステム全体や連携システムを対象としない。 AI/MLを含むシステム 機械学習 モジュール 連携システム 利用モ ジュール 利用モ ジュール 他 モジュール 本日議論したい範囲はココ システム全体やシステム間連携含めて開発・ 運用があるはずですが・・・ システム全体やシステム間連携を含めて、 開発・運用があるはずですが・・・ イ ン タ フ ェ ー ス イ ン タ フ ェ ー ス
  13. 13. © 2020 NTT DATA Corporation 13 用語定義 ■MLモデル • 機械学習で使われる数理モデルの構造およびパラメータ • 例えば、ニューラルネットワークにおいてはネットワーク構造と各ニューロンの重み • 具体的技術で言えば、ONNX、PMML、TensorFlow SavedModelなど ■学習器 • MLモデルを生成するためのプログラム ■推論器 • MLモデルを用いて推論するためのプログラム ■処理パイプライン • データ入力処理、前処理、データ加工処理、学習器または推論器およびMLモデル、後処理や結果出力処理を含めた、学習または 推論を完結するための処理一連を実行するためのプログラム ■メトリクス • MLモデルが、解きたい問題に対してどの程度適合しているかを示す指標値 • あるMLモデルに対して、何らかの評価用データセットを適用した結果をもとに算出するもの。 • 例えば、二値分類問題におけるF1スコアなど
  14. 14. © 2020 NTT DATA Corporation 14 参考にした公開情報 “Using MLOps to Bring ML to Production”, David Aronchick-Head of Open Source ML Strategy; Microsoft, MLOpsNYC 19, New York, US. Cross-industry standard process for data mining, https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining “TFX: A TensorFlow-Based Production-Scale Machine Learning Platform”, Denis Baylor, Eric Breck, Heng-TzeCheng, Noah Fiedel, ChuanYu Foo, ZakariaHaque,Salem Haykal, Mustafa Ispir, VihanJain, LeventKoc, Chiu Yuen Koo, Lukasz Lew,Clemens Mewald, AkshayNareshModi, NeoklisPolyzotis, SukritiRamesh, SudipRoy, Steven Euijong Whang, Martin Wicke, JarekWilkiewicz, Xin Zhang, Martin Zinkevich, Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD '17, 2017. "AI プロダクト品質保証ガイドライン2019.05 版", AI プロダクト品質保証コンソーシアム(QA4AI コン ソーシアム)編, http://www.qa4ai.jp/QA4AI.Guideline.201905.pdf 各図はそれぞれの資料より引用
  15. 15. © 2020 NTT DATA Corporation 15 全体像(1/2) 1 データサイエンティスト ・試行錯誤による洞察 データエンジニア ・データ収集、変換のシステム化 インフラエンジニア ・インフラ設計、構築、運用 2 4 機械学習エンジニア ・機械学習のシステム化 3 1 4 42 3 4 1 2 3 4 1 2 3 ビジネスへの効果に責任を 持つステークホルダを含め るべきとの意見あり 運用フェーズにおいてデータ サイエンティストが関わり続 けないケースがあるとの意 見あり
  16. 16. © 2020 NTT DATA Corporation 16 議論にあたって 以降、ワークフロー案の詳細について一通り説明いたします。 この後のディスカッション時間におかれましては、この案をたたき台としてインフラデザインや運用を検討しようと考え た時に起きうる、 • 過不足 • ex) XXの段階でYYすることを加味しないとうまくシステム作れないよ、・・・ • 不整合 • ex) XXしてからYYするのは逆じゃないか、・・・ • 粒度の不適当 • ex) XXとYYは画一的ではないのでZZとまとめるべき、・・・ などを皆様の知見に基づいてご意見・ご議論をいただけますと幸いです。
  17. 17. © 2020 NTT DATA Corporation 17 全体像(2/2) 初期学習 (試行錯誤) 初期学習 (大規模) 継続的学習 本番用推論 • ビジネス上の課題を解くた めに、試行錯誤で • データの性質を分 析し、 • MLモデルを作り、 • 学習を行い、 • 評価する、 フェーズ。 • 様々なデータを用いて、対 象となる課題を解くための アプローチを高速に試行錯 誤する。 • 高速な試行錯誤のため、 すべてのデータを用いるとは 限らない。 • 開発環境 ビジネス 課題設定• AI/MLを用いて、ビジネス上で何を達成 したいのかを定める。 • 例えば、KPIなど。 • 試行錯誤で見当を付けたMLモデルにつ いて、実際に使い始めるための学習を行 い、評価するフェーズ • 試行錯誤と異なり、使いたいデータはすべ て使う。 • 開発環境 • MLモデルで推論を行 い、その結果を活用す るフェーズ。 • AI/MLが、当初求めて いたビジネス上の価値 を発揮できているのかを 監視する。 • 監視結果が悪いときは、 継続的学習をキックし たり、課題設定を見直 す。 • 開発環境、商用環境 • MLモデルを最新化した り、改善したりするため の学習を行うフェーズ。 • 陳腐化対策のために新 たなデータを含む学習を 行ったり、性能改善のた めにハイパーパラメータの 最適値探索を行う。 • 本番用推論における監 視結果を受けてキックさ れる場合や、定期実行 される場合がある。 • 開発環境、商用環境 始
  18. 18. © 2020 NTT DATA Corporation 18 全体像(2/2) 初期学習 (試行錯誤) 初期学習 (大規模) 継続的学習 本番用推論 • ビジネス上の課題を解くた めに、試行錯誤で • データの性質を分 析し、 • MLモデルを作り、 • 学習を行い、 • 評価する、 フェーズ。 • 様々なデータを用いて、対 象となる課題を解くための アプローチを高速に試行錯 誤する。 • 高速な試行錯誤のため、 すべてのデータを用いるとは 限らない。 • 開発環境 ビジネス 課題設定• AI/MLを用いて、ビジネス上で何を達成 したいのかを定める。 • 例えば、KPIなど。 • 試行錯誤で見当を付けたMLモデルにつ いて、実際に使い始めるための学習を行 い、評価するフェーズ • 試行錯誤と異なり、使いたいデータはすべ て使う。 • 開発環境 • MLモデルで推論を 行い、その結果を 活用するフェーズ。 • MLが、当初求めて いたビジネス上の価 値を発揮できている のかを監視する。 • 監視結果が悪いと きは、継続的学習 をキックしたり、課題 設定を見直す。 • 商用環境 • MLモデルを最新化 したり、改善したりす るための学習を行う フェーズ。 • 陳腐化対策のため 新たなデータを使っ た学習を行ったり、 性能改善のために ハイパーパラメータの 最適値探索を行う。 • 本番用推論におけ る監視結果を受け てキックされる。 • 商用環境 始 目的に応じた4つのフェーズを定義 →目的によりSLAやツールが変わり、インフラデザインに影響 する フェーズごとでの遷移を定義 →その遷移の仕方がインフラデザインに影響する 開発時や運用時に絞らず、全体のワークフローを定義 →インフラデザインや運用の議論の全体像を明確化したい
  19. 19. © 2020 NTT DATA Corporation 19 個別1: 初期学習(試行錯誤) ■データ収集 解きたいビジネス課題に寄与するかもしれないデータセットを、仮説ベースで選定し、収集する。 ※ラベル付けタスクのためのシステム環境、インフラ ■データ分析(EDA) 収集したデータセットを統計値化したり、可視化したりすることで、データの傾向や相関などの性質を分析 し、把握する。 ■数理モデル検討 データ分析で把握したデータの性質を踏まえて、解きたい問題に適した数理モデルを決める。 (ex: 説明変数と目的変数、学習器の構造・アルゴリズム、…) ■データ変換 収集したデータセットを数理モデルに与えるため、変形や結合などの処理を実装し、実行する。 (ex: テーブル間の結合、名寄せや外れ値除去などのクレンジング、データ拡張) ■データ妥当性検証 データ変換で得た結果が学習対象として妥当かを検証する。 ■データ分割 交差検証などの手法に基づき、データを学習用と評価用とに分割する。 ■学習器開発 数理モデルに基づき学習器を設計し実装する。 ■学習 実装した学習器と、学習用データをもちいて学習を実行する。 ■モデル妥当性検証 学習したMLモデルによって解きたいビジネス課題が解ける見込みかを、メトリクスを用いて検証する。 アノテー ションのプ ロセスを 含めるべ きとの意 見あり
  20. 20. © 2020 NTT DATA Corporation 20 個別1: 初期学習(試行錯誤) ■データ収集 解きたいビジネス課題に寄与するかもしれないデータセットを、仮説ベースで選定し、収集する。 ※ラベル付けタスクのためのシステム環境、インフラ ■データ分析 収集したデータセットを統計値化したり、可視化したりすることで、データの傾向や相関などの性質を分析 し、把握する。 ■数理モデル検討 データ分析で把握したデータの性質を踏まえて、解きたい問題に適した数理モデルを決める。 (ex: 説明変数と目的変数、学習器の構造・アルゴリズム、…) ■データ変換 収集したデータセットを数理モデルに与えるため、変形や結合などの処理を実装し、実行する。 (ex: テーブル間の結合、名寄せや外れ値除去などのクレンジング、データ拡張) ■データ妥当性検証 データ変換で得た結果が学習対象として妥当かを検証する。 ■データ分割 交差検証などの手法に基づき、データを学習用と評価用とに分割する。 ■学習器開発 数理モデルに基づき学習器を設計し実装する。 ■学習 実装した学習器と、学習用データをもちいて学習を実行する。 ■モデル妥当性検証 学習したMLモデルによって解きたいビジネス課題が解ける見込みかを、メトリクスを用いて検証する。 初めは試行錯誤であり、前ステップへ戻る遷移を定義 →後工程への遷移を強制しない、柔軟なインフラや処理の設計が必要 となる 試行錯誤の時点で、プロトタイプのためのプログラムを作成することと 定義 →確保すべきシステム品質に影響する(以降のフェーズとの対比)
  21. 21. © 2020 NTT DATA Corporation 21 個別2: 初期学習(大規模) ■大規模対応開発 試行錯誤で実装したデータ変換や学習器、推論器のアプローチをもとに、大規模データの学習向けに実行可能なシステムを開発する。 ・試行錯誤の段階で適切な手法を用いて大規模データに対応するプログラムを実装していたとしても、それが大規模なデータで、実現可能なコスト/時間で実行で きるかは確認する必要がある。 ■大規模データ収集 大規模学習に使うデータセットをストレージなどから得る。 ■大規模データ変換 大規模学習を行うため収集したデータを変換する。 ■大規模学習 大規模データで学習を実行する。 ■大規模モデル妥当性検証 大規模データで学習したMLモデルによって解きたいビジネス課題が解ける見込みかを、メトリクスを用いて検証する。
  22. 22. © 2020 NTT DATA Corporation 22 個別2: 初期学習(大規模) ■大規模対応開発 試行錯誤で実装したデータ変換や学習器、推論器のアプローチをもとに、大規模データの学習向けに実行可能なシステムを開発する。 ・試行錯誤の段階で適切な手法を用いて大規模データに対応するプログラムを実装していたとしても、それが大規模なデータで、実現可能なコスト/時間で実行で きるかは確認する必要がある。 ■大規模データ収集 大規模学習に使うデータセットをストレージなどから得る。 ■大規模データ変換 大規模学習を行うため収集したデータを変換する。 ■大規模学習 大規模データで学習を実行する。 ■大規模モデル妥当性検証 大規模データで学習したMLモデルによって解きたいビジネス課題が解ける見込みかを、メトリクスを用いて検証する。 試行錯誤を参考に、新たに学習のためのプログラムを開発すると定義 →実運用のためのシステム品質の確保しなければならない 初期学習を参考に、新たに学習を実施しなおし、その妥当性を検証すると定義 →データの4V(Volume, Velocity, Variety, Veracity)による精度への影響を考慮し なければならない →実運用へ利用できるかのチェックの仕掛けが必要になる
  23. 23. © 2020 NTT DATA Corporation 23 個別3: 本番用推論 ■本番用推論処理パイプライン開発 本番用推論を行うための処理パイプラインを設計し実装する。 ■本番用推論対象データ収集 推論したい対象のデータセットをストレージなどから得る ■本番用推論処理パイプライン・モデル決定 収集したデータセットに対して、適した処理パイプラインとMLモデルを決める。 ※データの属性等を決定のためのインプットとする。 ■本番用推論処理パイプライン・モデル展開 決定した処理パイプラインおよびMLモデルをシステム上へ展開する。 ※プログラム・MLモデルの構造のロードやジョブ投入など ■本番用推論向けデータ変換 MLモデルで推論できるよう、収集したデータを変換する。 ■本番用推論 MLモデルを用いて推論を行う。 ■本番用推論結果監視 推論の結果やメトリクスを監視し、MLモデルの劣化を検知する。 ■推論結果確認 システム化された本番用推論結果監視においてチェックできないような推論の不備を確認する。 ■推論結果活用 推論結果を、実際の業務に活用できるよう後続システムへ連携する。 推論に失 敗した場 合の フォール バックの 必要性、 特にミッ ションクリ ティカルな 領域に対 する議論 あり 監視の方 法が成熟 していな いという議 論あり
  24. 24. © 2020 NTT DATA Corporation 24 個別3: 本番用推論 ■本番用推論処理パイプライン開発 本番用推論を行うための処理パイプラインを設計し実装する。 ■本番用推論対象データ収集 推論したい対象のデータセットを得る。 ■本番用推論処理パイプライン・モデル決定 収集したデータセットに対して、適した処理パイプラインとMLモデルを決める。 ※データの属性等に応じた選択 ■本番用推論処理パイプライン・モデル展開 決定した処理パイプラインおよびMLモデルをシステム上へ展開する。 ※プログラム・MLモデルの構造のロードやジョブ投入など ■本番用推論向けデータ変換 MLモデルで推論できるよう、収集したデータを変換する。 ■本番用推論 MLモデルを用いて推論を行う。 ■本番用推論結果監視 推論の結果やメトリクスを監視し、MLモデルの劣化を検知する。 ■推論結果確認 システム化された本番用推論結果監視においてチェックできないような推論の不備を確認する。 ■推論結果活用 推論結果を、実際の業務に活用できるよう後続システムへ連携する。 推論結果を監視すること、および種類の異なる不調時の遷移の定義 →監視の仕組みなどのインフラデザインに影響する 推論のための処理パイプラインは新たに開発すると定義 →推論時固有の処理(後処理など)を含めて、実運用のシステム品質を確保する
  25. 25. © 2020 NTT DATA Corporation 25 個別4: 継続的学習 ■継続的学習計画策定 継続的学習において、何を契機に、どのようなハイパーパラメータで学習を実施するかの計画を定める。 ■継続的学習処理パイプライン開発 継続的学習を行うための処理パイプラインを設計し実装する。 ■継続的学習処理パイプライン・モデル展開 処理パイプラインとMLモデルをシステム上へ展開する。 ※プログラム・MLモデルの構造のロードやジョブ投入など ■継続的学習対象データ収集 想定した継続的学習に必要な対象のデータセットをストレージなどから得る。 ■継続的学習向けデータ変換 収集したデータセットを、学習時に必要な形へ変換する。 ■学習 学習を実行する。 ■学習結果確認 学習結果としてMLモデルが得られていることを確認する。 ■モデル妥当性検証 学習結果のMLモデルによって、達成したいKPIが十分に達成できる見込みかを検証する。 ■本番用推論モデルリリース 学習結果のMLモデルを、本番用推論で使うためにリリースする。 再学習の内 容により、そ のプロセス や担当者が 変わるとの 意見あり 体制や契約 により実施 できる責任 範囲が変わ るとの意見 あり
  26. 26. © 2020 NTT DATA Corporation 26 個別4: 継続的学習 ■継続的学習計画策定 継続的学習において、何を契機に、どのようなハイパーパラメータで学習を実施するかの計画を定める。 ■継続的学習処理パイプライン開発 継続的学習を行うための処理パイプラインを設計し実装する。 ■継続的学習処理パイプライン・モデル展開 処理パイプラインとMLモデルをシステム上へ展開する。 ※プログラム・MLモデルの構造のロードやジョブ投入など ■継続的学習対象データ収集 想定した継続的学習に必要な対象データセットをストレージなどから収集する。 ■継続的学習向けデータ変換 収集したデータセットを、学習時に必要な形へ変換する。 ■学習 学習を実行する。 ■学習結果確認 学習結果としてMLモデルが得られていることを確認する。 ■モデル妥当性検証 学習結果のMLモデルによって、達成したいKPIが十分に達成できる見込みかを検証する。 ■本番用推論モデルリリース 学習結果のMLモデルを、本番用推論で使うためにリリースする。 継続的学習のための計画策定を定義 →システムおよび機械学習の要件に強く依存する (再学習を経ても改善できない劣化がありうるので)継続的学習の都度、その妥 当性を検証すると定義 →デプロイの仕組みのインフラへ影響する
  27. 27. © 2020 NTT DATA Corporation

×