Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kubernetesによる機械学習基盤、楽天での活用事例 覃子麟 (チンツーリン) /楽天株式会社

583 views

Published on

2019/3/28に開催したRakuten Tech Meetup #1 事業に響くデータとAIの発表資料です。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Kubernetesによる機械学習基盤、楽天での活用事例 覃子麟 (チンツーリン) /楽天株式会社

  1. 1. Kubernetesによる機械学習 基盤、楽天での活用事例 March 28, 2019 Chin TzuLin Rakuten Inc.
  2. 2. 2 自己紹介 Chin TzuLin Data Science Department Data Science Platform team Rakuten Inc. chin-tzulin-66305b68 tzulin.chin@rakuten.com 今日のテーマ
  3. 3. 3 • データサイエンス部署における諸々課題 • Kubernetes による機械学習基盤 • 事例紹介、課題と展望 自己紹介 今日のテーマ
  4. 4. 4 データサイエンス部署における諸々課題
  5. 5. 5 機械学習プロジェクトの仕組み Data Collection Data Extraction Model Training Model Deploy Serving Data Model Service
  6. 6. 6 データサイエンス部署とは Data Collection Data Extraction Model Training Model Deploy Serving データ部 データサイエンス部 事業部 Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359, https://www.flaticon.com/free-icon/businessman_1553065, https://www.flaticon.com/free-icon/database_1472529
  7. 7. 7 データサイエンス部署における課題 Data Collection Data Extraction Model Training Model Deploy Serving データ部 データサイエンス部 事業部 レコメンデーションの サービスが欲しい Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359, https://www.flaticon.com/free-icon/businessman_1553065, https://www.flaticon.com/free-icon/database_1472529
  8. 8. 8 データサイエンス部署における課題 Data Collection Data Extraction Model Training Model Deploy Serving データはどこに保存されて いるか?どうやってアクセ スできるか? モデルはどうやって渡す か?どのサーバー使えば いいか? 開発環境はどこ?似たよ うなサンプルはあるか? データ部 データサイエンス部 事業部 Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359, https://www.flaticon.com/free-icon/businessman_1553065, https://www.flaticon.com/free-icon/database_1472529
  9. 9. 9 従来のやり方 Firewall Database Batch Server • Airflow • Hadoop Client • TensorFlow … • Project A Source Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359,
  10. 10. 10 従来のやり方 Data Collection Data Extraction Model Training Model Deploy Serving PyTorch試したい 異常検知のサービスも欲しい データ部 データサイエンス部 事業部 Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359, https://www.flaticon.com/free-icon/businessman_1553065, https://www.flaticon.com/free-icon/database_1472529
  11. 11. 11 時間が経つにつれて Batch Server • Airflow • Hadoop Client • TensorFlow • Pytoruch • MLflow • Spark Client … • Project A Source • Project B Source … • Project N source 誰かXXXインストールしてくれ なんかサーバーの負担重い 私もバッチサーバー使いたい Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359,
  12. 12. 12 バッチサーバーがネックになる Batch Server • Airflow • Hadoop Client • TensorFlow • Pytoruch • MLflow • Spark Client … • Project A Source • Project B Source … • Project N source ディスク足りないので 不要なファイル削除 rm –rf / tmp/xxxxx Oops Oops Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359,
  13. 13. 13 環境の再現は難しい Batch Server 2 … 何をインストールすればいいか ACLを新しく申請しないと そもそもインフラの知識がない Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359,
  14. 14. 14 データサイエンティスト が楽に仕事できる環境が 欲しい! Image made by unsplash (03-25) https://unsplash.com/photos/9r-_2gzP37k
  15. 15. 15 諸々課題 • データサイエンティストたち一緒に 仕事できる環境 • 自分の機械学習の開発環境が欲しい • その開発環境をいつでも本番環境で 再現できるようにしたい • 私はデータサイエンティストなのに インフラに触れたくない、サーバー とかもう知りたくない • 簡単に機械学習のAPIを作りたいけど ロードバランサーどうする Resource Cluster Container Docker Serverless MLaaS いけそう!
  16. 16. 16 Kubernetesによる機械学習基盤
  17. 17. 17 Kubernetesとは • マイクロサービスの基盤 • 複数なサーバーを一つのク ラスタにしてリソース (CPU/Memory/GPU)を提供する技 術 • App Containerの管理や迅速的に デプロイすることができる Image made by kubernetes (03-25) https://kubernetes.io/docs/concepts/architecture/cloud-controller/
  18. 18. 18 Data Science Platform Data Science Platform Knowledge HubDataLab FaaS Data Collection Data Extraction Model Training Model Deploy Serving
  19. 19. 19 Architecture 19
  20. 20. 20 Data Science Platform • Jupyterの開発環境が 欲しい • Airflowが欲しい • 4 CPUと1GPUと64Gメ モリください • Software/Environment as a container • Customizable resource DataLab Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359,
  21. 21. 21 Data Science Platform • 機械学習のモデルを トレーニングしたい • そのモデルをAPI化に したい • 4 CPUと1GPUと64Gメ モリください • Batch job as a container • HTTP service as a container • Customizable resource Function as a service Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359,
  22. 22. 22 Data Science Platform • 分析のやり方を新人さんに教えたい • プロジェクト共有したい • Jupyter notebook Sharing • Newcomer training Knowledge Hub Image made by flaticon (03-25) https://www.flaticon.com/free-icon/scientist_1559359,
  23. 23. 23 事例紹介、課題と展望
  24. 24. 24 事例紹介 DScPを利用してる方々 • 分析者 • データエンジニア • データサイエンティスト DScPを利用してる部署 ~200 Active User 10 Department
  25. 25. 25 機械学習の開発環境と 本番環境 Kubernetesへ移行 した後 Merit • 開発環境やBatchJobなどがContainerizeできてい ていつでも再現できる • Kubernetesはclusterの一つなので幾つかのサー バーが落ちても平気 • 計算能力が足りなくなったらいつでも拡張 できる Demerit • Kubernetesは誰かがメンテナンスする必要があ る -> プラットホームチームを作った
  26. 26. 26 Kubernetesによる機械学習基盤の課題 • Dockerのバグによくハマる • 環境はコンテナーなので永続性は課題 • KubernetesにはStopの機能欠けている • バージョンアップ
  27. 27. 27 今後の展望 • Hybrid Cluster: On-Premises + GCP • Streaming Job as a Container • AutoML • Open Source • We are hiring

×