More Related Content Similar to Kuberflow Kubernetes上の機械学習プラットフォーム Similar to Kuberflow Kubernetes上の機械学習プラットフォーム (20) Kuberflow Kubernetes上の機械学習プラットフォーム5. A Brief Synopsis of Kubeflow
● Kubernetesで機械学習に関係する
サービスを集めたものです。
● 0.4は2018.12にリリースです。
● 1.0は2019.08にリリースです。
9. Common Problems on Machine Learning Operations
Machine Learning: The High-Interest Credit Card of Technical Debt
Hidden Technical Debt in Machine Learning Systems
長年機械学習を行なってきた会社で機械学習を行うことで発生する問題点が報
告される。曰く、機械学習はすごいスピードで陳腐化し、技術的負債(technical
debt)になるというのが上記の趣旨。ここでは技術的負債の説明はしないので、
リンク先を参照のこと
see: https://qiita.com/erukiti/items/9cc7850250268582dde7
10. Common Problems on Machine Learning Operations
これらの論文のSummaryは
● 機械学習においては、“Change Anything Changes Everything”
● 複雑なデータパイプラインやグルーコードを減らすべき
● 入力元となるデータ自体をバージョン管理できるようにするべき
● 不要なパラメータを削除できるように常にメンテナンスできるようにする
● 不要なコードを削除し、メンテナンス可能な状態にする
● 外部世界の変化に対応できるようにするべき
● モニタリングやテストができるようにするべき
11. Common Problems on Machine Learning Operations
よくあるMLOps問題点
● バージョンやら環境が変わると計算結果が変わる
● 確率的にジョブが失敗する
● 技術的負債の蓄積(先述のGoogleなど)
● 機械学習を本気でやるにはInfraの深い知識が必要
● MLEngやDSciがWeb Appを作ったりするのめんどくさくない?
● モニタリングがなく、検証可能・再現可能な状態になっていない
12. Common Problems on Machine Learning Operations
よくあるMLOps問題点
● バージョンやら環境が変わると計算結果が変わる
● 確率的にジョブが失敗する
● 技術的負債の蓄積(先述のGoogleなど)
● 機械学習を本気でやるにはInfraの深い知識が必要
● MLEngやDSciがWeb Appを作ったりするのめんどくさくない?
● モニタリングがなく、検証可能・再現可能な状態になっていない
14. Caveat Epexegesis ~My Evaluations of Server Virtualization Technologies~
開 発 環 境 には 良 いもの
の、Network起 因や各OS
のバージョン 違 いの 問 題
が発見できず。また、事前
にリソースを確 保されるの
で、非常に重い。
15. Caveat Epexegesis ~My Evaluations of Server Virtualization Technologies~
開 発 環 境 には 良 いもの
の、Network起 因や各OS
のバージョン 違 いの 問 題
が発見できず。また、事前
にリソースを確 保されるの
で、非常に重い。
開発環境には非常に良い。
基本的には環境の差異が
埋められる上に、本番に近
い構成で開発が可能。しか
し、NW周りの設定やデプロ
イ周りがめんどくさい。
16. Caveat Epexegesis ~My Evaluations of Server Virtualization Technologies~
開 発 環 境 には 良 いもの
の、Network起 因や各OS
のバージョン 違 いの 問 題
が発見できず。また、事前
にリソースを確 保されるの
で、非常に重い。
開発環境には非常に良い。
基本的には環境の差異が
埋められる上に、本番に近
い構成で開発が可能。しか
し、NW周りの設定やデプロ
イ周りがめんどくさい。
Dockerさえ覚えていけば、
本番構成が作れるものの、
痒い所に手が届かないの
で、使い物にならない。
つらみしかない。
17. Why Kubernetes + Machine Learning
Kubernetes:
● Production-Grade Container Orchestration.
● Docker Swarmの進化版
● microservices、Site Reliability Engineering、Infrastructure as a Codeの文脈で語ら
れるコンテナ技術。
● yamlで望むインフラが手に入れられる
● Infraやったことのない人には結構難易度が高いが、超便利。
Kubeflowは実はKubernetes上で動くサービスを機械学習用に編集しただけ。
Kubernetesとサービス管理のksonnetがその実態。
23. Why Kubernetes + Machine Learning
よくあるMLOps問題点で解決できること
● バージョンやら環境が変わると計算結果が変わる
○ Kubernetes: Imageで環境を管理するので、環境は同じ
○ TFX: 学習済みモデルを管理するので、出力も同じ
● 確率的にジョブが失敗する
○ Kubernetes: Batchにて失敗ジョブを自動的に再起動
● 技術的負債の蓄積(先述のGoogleなど)
○ Kubernetes: microservices化により、頻繁にメンテナンスが可能。EngとSciが
頑張って技術的負債を減らしてね!
○ TFX: Pipelineをシンプルにできた。
● 機械学習を本気でやるにはInfraの深い知識が必要
○ Kubernetes: Kubernetes Clusterはコードで管理できるために、Infraの敷居が
低くなった。
● MLEngやDSciがWeb Appを作ったりするのめんどくさくない?
○ Kubernetes+TFX: Web App化を自動化。
27. Kubeflow Architecture
Hyperparameter Tuning on Kubernetes. This project is inspired by Google
vizier. Katib is a scalable and flexible hyperparameter tuning framework
and is tightly integrated with kubernetes. Also it does not depend on a
specific Deep Learning framework e.g. TensorFlow, MXNet, and PyTorch).