Submit Search
Upload
KubernetesでGPUクラスタを管理したい
•
Download as PPTX, PDF
•
5 likes
•
9,068 views
Yuji Oshima
Follow
DockerTokyo #20で発表した内容です。 https://dockerjp.connpass.com/event/73122/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 28
Download now
Recommended
PFN は、「現実世界を計算可能にする」を Vision として,膨大な計算量を必要とするシミュレーションや深層学習などの計算ワークロードを実行するためのオンプレ ML 基盤を持っています。 この発表では、「オンプレクラスタの概要」と最近のトピックとして「新しく構築した「MN-2b」」、「Pod のリソース要求量の最適化を助けるしくみ」、「Kubernetes クラスタのアップグレード」についてお話します。 本イベント「オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜」では、オンプレミスの Kubernetes クラスタ上に構築された機械学習基盤を持つ PFN とヤフーのエンジニアが自社での取り組みについて語り尽くします! イベントサイト: https://ml-kubernetes.connpass.com/event/255797/
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
Preferred Networks
「マージがなんとなく怖い」「リベースするなって怒られて怖い」「エラーが出て怖い」 Git 入門者にありがちな「Git 怖い」を解消するため、Git のお仕事(コミット、ブランチ、マージ、リベース)について解説します。
こわくない Git
こわくない Git
Kota Saito
Preferred Networks(PFN)は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。コンピュータビジョン、自然言語処理、音声認識、ロボティクス、コンパイラ、分散処理、専用ハードウェア、バイオインフォマティクス、ケモインフォマティクスといった幅広い分野で研究開発を行っており、それを支えているのが Kubernetes を用いて構築しているオンプレミス/ベアメタルの GPU クラスタです。 本セッションでは、PFN が Kubernetes を用いてクラスタを運用するなかでどのような障害が起きるのかを紹介し、また障害対応をどのように自動化しているのかを具体的に使用/開発したソフトウェアを含めてご紹介します。また Kubernetes クラスタの管理、アップグレードの自動化にも取り組んでおり、それを実現する Cluster API についてもご紹介します。 https://confengine.com/conferences/devopsdays-tokyo-2021/proposal/15203/pfn-mldl-kubernetes
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
Preferred Networks
Preferred Networksでは新物質開発や材料探索を加速する汎用原子レベルシミュレータを利用できるクラウドサービスを開発しています。 顧客毎に独立した環境にユーザがJupyter Notebookを立ち上げ、自社PyPIパッケージによりAPI経由で弊社独自技術を簡単に利用できます。Kubernetesの機能を駆使してマルチテナント環境を構築しており、各顧客に独立したAPIサーバを提供し、その負荷状況によりAPIサーバをスケーリングさせたり、顧客毎にNotebookに対する通信制限や配置Nodeの制御などを実現しています。 本発表ではKubernetesによるマルチテナントJupyter as a Serviceの実現方法を紹介します。
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
Preferred Networks
2015年9月18日開催 GTC Japan 2015 講演資料 エヌビディア合同会社 プラットフォームビジネス本部 シニアCUDA エンジニア 森野 慎也 CUDA Tookitでは、Nsight、Visual Profilerなどの開発ツールが、標準で提供されています。本セッションでは、これらのツールを用いたデバッグ・プロファイリングの基本操作について、説明します。また、事例を用い、効率のよいデバッグ法、プロファイリング時の基本的な確認ポイントもあわせて紹介します。プラットフォームは、Windows、Linuxの両者が対象となります。
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
NVIDIA Japan
Container Runtime Meetup #1 runcコードリーディング資料 https://runtime.connpass.com/event/145088/
[Container Runtime Meetup] runc & User Namespaces
[Container Runtime Meetup] runc & User Namespaces
Akihiro Suda
PFNは,「現実世界を計算可能にする」をVisionとして,膨大な計算量を必要とするシミュレーションや深層学習などの計算ワークロードを実行するためのオンプレML基盤を持っています. この取り組みについて、「使いやすい環境」、「リソースの効率的かつフェアな利用」、「信頼性・運用省力化」の観点から紹介します。 本イベント「オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜」では、オンプレミスの Kubernetes クラスタ上に構築された機械学習基盤を持つ PFN とヤフーのエンジニアが自社での取り組みについて語り尽くします! イベントサイト: https://ml-kubernetes.connpass.com/event/239859/
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
最近勉強を始めたコンテナ技術に関する基礎的な知識をまとめました。 [訂正と注釈] p.27-30: 「Deployment」内の「Version: 1」 => 「Version: 2」 p.37: 「終了コードをから」 => 「終了コードから」 p.39: 「HTTPSが利用できない」=> AWS上では、SSL終端するLBがサポートされています。https://kubernetes.io/docs/concepts/services-networking/service/#ssl-support-on-aws p.40: 「ユーザがingress controllerをmaster上にセットアップする必要」 => master上にセットアップしなければならないという制約はありません。例えばGCEのingress controller(GLBC)はPodとして動作します。https://github.com/kubernetes/ingress-gce/blob/master/README.md p.71: 「Pod container」 => 「pause container」
コンテナ未経験新人が学ぶコンテナ技術入門
コンテナ未経験新人が学ぶコンテナ技術入門
Kohei Tokunaga
Recommended
PFN は、「現実世界を計算可能にする」を Vision として,膨大な計算量を必要とするシミュレーションや深層学習などの計算ワークロードを実行するためのオンプレ ML 基盤を持っています。 この発表では、「オンプレクラスタの概要」と最近のトピックとして「新しく構築した「MN-2b」」、「Pod のリソース要求量の最適化を助けるしくみ」、「Kubernetes クラスタのアップグレード」についてお話します。 本イベント「オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜」では、オンプレミスの Kubernetes クラスタ上に構築された機械学習基盤を持つ PFN とヤフーのエンジニアが自社での取り組みについて語り尽くします! イベントサイト: https://ml-kubernetes.connpass.com/event/255797/
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
Preferred Networks
「マージがなんとなく怖い」「リベースするなって怒られて怖い」「エラーが出て怖い」 Git 入門者にありがちな「Git 怖い」を解消するため、Git のお仕事(コミット、ブランチ、マージ、リベース)について解説します。
こわくない Git
こわくない Git
Kota Saito
Preferred Networks(PFN)は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。コンピュータビジョン、自然言語処理、音声認識、ロボティクス、コンパイラ、分散処理、専用ハードウェア、バイオインフォマティクス、ケモインフォマティクスといった幅広い分野で研究開発を行っており、それを支えているのが Kubernetes を用いて構築しているオンプレミス/ベアメタルの GPU クラスタです。 本セッションでは、PFN が Kubernetes を用いてクラスタを運用するなかでどのような障害が起きるのかを紹介し、また障害対応をどのように自動化しているのかを具体的に使用/開発したソフトウェアを含めてご紹介します。また Kubernetes クラスタの管理、アップグレードの自動化にも取り組んでおり、それを実現する Cluster API についてもご紹介します。 https://confengine.com/conferences/devopsdays-tokyo-2021/proposal/15203/pfn-mldl-kubernetes
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
Preferred Networks
Preferred Networksでは新物質開発や材料探索を加速する汎用原子レベルシミュレータを利用できるクラウドサービスを開発しています。 顧客毎に独立した環境にユーザがJupyter Notebookを立ち上げ、自社PyPIパッケージによりAPI経由で弊社独自技術を簡単に利用できます。Kubernetesの機能を駆使してマルチテナント環境を構築しており、各顧客に独立したAPIサーバを提供し、その負荷状況によりAPIサーバをスケーリングさせたり、顧客毎にNotebookに対する通信制限や配置Nodeの制御などを実現しています。 本発表ではKubernetesによるマルチテナントJupyter as a Serviceの実現方法を紹介します。
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
Preferred Networks
2015年9月18日開催 GTC Japan 2015 講演資料 エヌビディア合同会社 プラットフォームビジネス本部 シニアCUDA エンジニア 森野 慎也 CUDA Tookitでは、Nsight、Visual Profilerなどの開発ツールが、標準で提供されています。本セッションでは、これらのツールを用いたデバッグ・プロファイリングの基本操作について、説明します。また、事例を用い、効率のよいデバッグ法、プロファイリング時の基本的な確認ポイントもあわせて紹介します。プラットフォームは、Windows、Linuxの両者が対象となります。
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
NVIDIA Japan
Container Runtime Meetup #1 runcコードリーディング資料 https://runtime.connpass.com/event/145088/
[Container Runtime Meetup] runc & User Namespaces
[Container Runtime Meetup] runc & User Namespaces
Akihiro Suda
PFNは,「現実世界を計算可能にする」をVisionとして,膨大な計算量を必要とするシミュレーションや深層学習などの計算ワークロードを実行するためのオンプレML基盤を持っています. この取り組みについて、「使いやすい環境」、「リソースの効率的かつフェアな利用」、「信頼性・運用省力化」の観点から紹介します。 本イベント「オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜」では、オンプレミスの Kubernetes クラスタ上に構築された機械学習基盤を持つ PFN とヤフーのエンジニアが自社での取り組みについて語り尽くします! イベントサイト: https://ml-kubernetes.connpass.com/event/239859/
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
最近勉強を始めたコンテナ技術に関する基礎的な知識をまとめました。 [訂正と注釈] p.27-30: 「Deployment」内の「Version: 1」 => 「Version: 2」 p.37: 「終了コードをから」 => 「終了コードから」 p.39: 「HTTPSが利用できない」=> AWS上では、SSL終端するLBがサポートされています。https://kubernetes.io/docs/concepts/services-networking/service/#ssl-support-on-aws p.40: 「ユーザがingress controllerをmaster上にセットアップする必要」 => master上にセットアップしなければならないという制約はありません。例えばGCEのingress controller(GLBC)はPodとして動作します。https://github.com/kubernetes/ingress-gce/blob/master/README.md p.71: 「Pod container」 => 「pause container」
コンテナ未経験新人が学ぶコンテナ技術入門
コンテナ未経験新人が学ぶコンテナ技術入門
Kohei Tokunaga
container runtime meetup #4で発表した資料です。 https://runtime.connpass.com/event/253798/
BuildKitの概要と最近の機能
BuildKitの概要と最近の機能
Kohei Tokunaga
2014年6月に開催されたSSII2014(http://www.ssii.jp/)のチュートリアル講演用資料です. 使用したコード等はこちら. https://github.com/norishigefukushima/SSII2014 アブストラクト 「CPUのクロック数が年月とともに増加する時代は終わり、プログラムの高速化をCPUの性能向上に任せることのできるフリーランチの時代は終わりを迎えています。しかしムーアの法則はいまだに続いており、CPUはマルチコア化、SIMD化という形で高性能化が続いています。本チュートリアルでは、計算コストの高い画像処理を高速化するために、CPUの能力をあますことなく引き出す、マルチコアプログラミング、SIMDプログラミングを解説します。」
マルチコアを用いた画像処理
マルチコアを用いた画像処理
Norishige Fukushima
例外設計における大罪 Jun 27, 2012 @ java-ja
例外設計における大罪
例外設計における大罪
Takuto Wada
7月29日開催 July Tech Festa 2018基調講演スライドです。 大村伸吾「Preferred Networksの機械学習クラスタを支える技術」 https://2018.techfesta.jp/ Slides of Keynote in July Tech Festa 2018.
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
目grep入門があまりにもKernelVM::入門だという指摘があったため、解説をつけてよりstd::入門に近づけてみました。
目grep入門 +解説
目grep入門 +解説
murachue
Helm Repositoryの構造、公開方法について解説し、Github Pagesを使った公開法を紹介します。
Githubを使って簡単に helm repoを公開してみよう
Githubを使って簡単に helm repoを公開してみよう
Shingo Omura
Dockerコンテナ内からGitを利用する手順
DockerコンテナでGitを使う
DockerコンテナでGitを使う
Kazuhiro Suga
2018年12月4日 Japan Container Days 講演資料 谷脇大輔 Preferred Networksでは1000個以上のGPUとInfiniBandからなるオンプレミスのクラスターを自社で構築しており、研究者が様々な目的、リソース量、実行時間の機械学習ジョブをKubernetes上で実行して研究成果を出しています。 KubernetesはKubeflowの登場など、機械学習基盤としても非常に注目されている一方で、現実的には未だ発展途上です。 講演では機械学習基盤としてのKubernetesの導入理由、その実用性と将来性、Preferred Networksの挑戦についてお話ししました。
Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
Talked at CEDEC 2018, 2018/08/22 - https://2018.cedec.cesa.or.jp/session/detail/s5b559852a6405
CEDEC 2018 最速のC#の書き方 - C#大統一理論へ向けて性能的課題を払拭する
CEDEC 2018 最速のC#の書き方 - C#大統一理論へ向けて性能的課題を払拭する
Yoshifumi Kawai
第5回VFX技術者交流会で発表した資料のフル版です。
なぜなにリアルタイムレンダリング
なぜなにリアルタイムレンダリング
Satoshi Kodaira
オープンソースカンファレンス 2019 Tokyo/Spring 発表資料 #osc19tk https://www.ospn.jp/osc2019-spring/ 2019年2月22日(金)
Docker Compose 徹底解説
Docker Compose 徹底解説
Masahito Zembutsu
2021年10月29日開催「いまさら聞けない!CUDA高速化入門」セミナー資料です。
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
2014年12月11日(木) サムライインキュベート(東京都品川)19:00 ~ 22:00 Code the Clouds Mix-up Vol.2 発表資料 http://everevo.com/event/17392
Serf / Consul 入門 ~仕事を楽しくしよう~
Serf / Consul 入門 ~仕事を楽しくしよう~
Masahito Zembutsu
DeNAではUnityを使って多くのゲームを開発していますが、Unityはいま、かつてない規模の大きな変革の時を迎えています。この大きなうねりのなかで、何が変わろうとしているかを知り、そして変化によって生まれる価値を正しく認識して開発に取り入れることができれば、Unityでのゲーム開発の効率を大きく改善させていくことができます。本セッションでは、Unityに今どのような改善がなされているのかについて話した上で、DeNAがその領域に対して今までどのように対処してきて、Unityの改善を受けてそれをどのように生かしてゲーム開発の現場に取り入れようとしているのかについてピックアップして説明していきます。
Unity 2018-2019を見据えたDeNAのUnity開発のこれから [DeNA TechCon 2019]
Unity 2018-2019を見据えたDeNAのUnity開発のこれから [DeNA TechCon 2019]
DeNA
SNSのアカウントを見つけてくれるツール「Blackbird」のレビュースライドです。
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
Shota Shinogi
Design solusion forum2016での発表資料. http://www.dsforum.jp/2016/timetable.html
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
Norishige Fukushima
オンラインゲームの仕組みや工夫を調べてみたのを社内勉強会で発表した。ときのスライド。の公開用。 オンラインゲームの種別とそれぞれの仕組みについての話と、オープンソースになっているQuakeの仕組みの話、という2つの話が主なトピック
オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫
Yuta Imai
Rakuten Tech Conference 2018 at 札幌
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Toru Makabe
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~ (Kubernetes Meetup Tokyo #33 発表資料) 2020/08/26 NTT DATA Yasuhiro Horiuchi
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
NTT DATA Technology & Innovation
分散学習についてから始まり、データパラレルとモデルパラレルの説明、Chainerでの両者の実装についてのスライドとなっております。
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
20210830 GPU Optimization with PyTorch fixed DLProfとNsight Systemsの紹介(pip installの部分一部修正)
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
ManaMurakami1
2020年1月22日の Slurm User Group Meetup Tokyo #1で発表した資料です。
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
Kuninobu SaSaki
More Related Content
What's hot
container runtime meetup #4で発表した資料です。 https://runtime.connpass.com/event/253798/
BuildKitの概要と最近の機能
BuildKitの概要と最近の機能
Kohei Tokunaga
2014年6月に開催されたSSII2014(http://www.ssii.jp/)のチュートリアル講演用資料です. 使用したコード等はこちら. https://github.com/norishigefukushima/SSII2014 アブストラクト 「CPUのクロック数が年月とともに増加する時代は終わり、プログラムの高速化をCPUの性能向上に任せることのできるフリーランチの時代は終わりを迎えています。しかしムーアの法則はいまだに続いており、CPUはマルチコア化、SIMD化という形で高性能化が続いています。本チュートリアルでは、計算コストの高い画像処理を高速化するために、CPUの能力をあますことなく引き出す、マルチコアプログラミング、SIMDプログラミングを解説します。」
マルチコアを用いた画像処理
マルチコアを用いた画像処理
Norishige Fukushima
例外設計における大罪 Jun 27, 2012 @ java-ja
例外設計における大罪
例外設計における大罪
Takuto Wada
7月29日開催 July Tech Festa 2018基調講演スライドです。 大村伸吾「Preferred Networksの機械学習クラスタを支える技術」 https://2018.techfesta.jp/ Slides of Keynote in July Tech Festa 2018.
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
目grep入門があまりにもKernelVM::入門だという指摘があったため、解説をつけてよりstd::入門に近づけてみました。
目grep入門 +解説
目grep入門 +解説
murachue
Helm Repositoryの構造、公開方法について解説し、Github Pagesを使った公開法を紹介します。
Githubを使って簡単に helm repoを公開してみよう
Githubを使って簡単に helm repoを公開してみよう
Shingo Omura
Dockerコンテナ内からGitを利用する手順
DockerコンテナでGitを使う
DockerコンテナでGitを使う
Kazuhiro Suga
2018年12月4日 Japan Container Days 講演資料 谷脇大輔 Preferred Networksでは1000個以上のGPUとInfiniBandからなるオンプレミスのクラスターを自社で構築しており、研究者が様々な目的、リソース量、実行時間の機械学習ジョブをKubernetes上で実行して研究成果を出しています。 KubernetesはKubeflowの登場など、機械学習基盤としても非常に注目されている一方で、現実的には未だ発展途上です。 講演では機械学習基盤としてのKubernetesの導入理由、その実用性と将来性、Preferred Networksの挑戦についてお話ししました。
Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
Talked at CEDEC 2018, 2018/08/22 - https://2018.cedec.cesa.or.jp/session/detail/s5b559852a6405
CEDEC 2018 最速のC#の書き方 - C#大統一理論へ向けて性能的課題を払拭する
CEDEC 2018 最速のC#の書き方 - C#大統一理論へ向けて性能的課題を払拭する
Yoshifumi Kawai
第5回VFX技術者交流会で発表した資料のフル版です。
なぜなにリアルタイムレンダリング
なぜなにリアルタイムレンダリング
Satoshi Kodaira
オープンソースカンファレンス 2019 Tokyo/Spring 発表資料 #osc19tk https://www.ospn.jp/osc2019-spring/ 2019年2月22日(金)
Docker Compose 徹底解説
Docker Compose 徹底解説
Masahito Zembutsu
2021年10月29日開催「いまさら聞けない!CUDA高速化入門」セミナー資料です。
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
2014年12月11日(木) サムライインキュベート(東京都品川)19:00 ~ 22:00 Code the Clouds Mix-up Vol.2 発表資料 http://everevo.com/event/17392
Serf / Consul 入門 ~仕事を楽しくしよう~
Serf / Consul 入門 ~仕事を楽しくしよう~
Masahito Zembutsu
DeNAではUnityを使って多くのゲームを開発していますが、Unityはいま、かつてない規模の大きな変革の時を迎えています。この大きなうねりのなかで、何が変わろうとしているかを知り、そして変化によって生まれる価値を正しく認識して開発に取り入れることができれば、Unityでのゲーム開発の効率を大きく改善させていくことができます。本セッションでは、Unityに今どのような改善がなされているのかについて話した上で、DeNAがその領域に対して今までどのように対処してきて、Unityの改善を受けてそれをどのように生かしてゲーム開発の現場に取り入れようとしているのかについてピックアップして説明していきます。
Unity 2018-2019を見据えたDeNAのUnity開発のこれから [DeNA TechCon 2019]
Unity 2018-2019を見据えたDeNAのUnity開発のこれから [DeNA TechCon 2019]
DeNA
SNSのアカウントを見つけてくれるツール「Blackbird」のレビュースライドです。
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
Shota Shinogi
Design solusion forum2016での発表資料. http://www.dsforum.jp/2016/timetable.html
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
Norishige Fukushima
オンラインゲームの仕組みや工夫を調べてみたのを社内勉強会で発表した。ときのスライド。の公開用。 オンラインゲームの種別とそれぞれの仕組みについての話と、オープンソースになっているQuakeの仕組みの話、という2つの話が主なトピック
オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫
Yuta Imai
Rakuten Tech Conference 2018 at 札幌
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Toru Makabe
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~ (Kubernetes Meetup Tokyo #33 発表資料) 2020/08/26 NTT DATA Yasuhiro Horiuchi
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
NTT DATA Technology & Innovation
分散学習についてから始まり、データパラレルとモデルパラレルの説明、Chainerでの両者の実装についてのスライドとなっております。
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
What's hot
(20)
BuildKitの概要と最近の機能
BuildKitの概要と最近の機能
マルチコアを用いた画像処理
マルチコアを用いた画像処理
例外設計における大罪
例外設計における大罪
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
目grep入門 +解説
目grep入門 +解説
Githubを使って簡単に helm repoを公開してみよう
Githubを使って簡単に helm repoを公開してみよう
DockerコンテナでGitを使う
DockerコンテナでGitを使う
Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦
CEDEC 2018 最速のC#の書き方 - C#大統一理論へ向けて性能的課題を払拭する
CEDEC 2018 最速のC#の書き方 - C#大統一理論へ向けて性能的課題を払拭する
なぜなにリアルタイムレンダリング
なぜなにリアルタイムレンダリング
Docker Compose 徹底解説
Docker Compose 徹底解説
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Serf / Consul 入門 ~仕事を楽しくしよう~
Serf / Consul 入門 ~仕事を楽しくしよう~
Unity 2018-2019を見据えたDeNAのUnity開発のこれから [DeNA TechCon 2019]
Unity 2018-2019を見据えたDeNAのUnity開発のこれから [DeNA TechCon 2019]
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Similar to KubernetesでGPUクラスタを管理したい
20210830 GPU Optimization with PyTorch fixed DLProfとNsight Systemsの紹介(pip installの部分一部修正)
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
ManaMurakami1
2020年1月22日の Slurm User Group Meetup Tokyo #1で発表した資料です。
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
Kuninobu SaSaki
Cloud Deep Learning VM Image を使って快適・高速な機械学習環境を構築する方法
ディープラーニングイメージで構築する快適・高速な機械学習環境
ディープラーニングイメージで構築する快適・高速な機械学習環境
Yaboo Oyabu
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
Ryuichi Sakamoto
2019年11月21日 ビヨンド勉強会#21 株式会社エクストランス 技術部システムオペレーション課 北岡 俊樹 「社内システムにGKEを組み込んだお話」
20191120 beyondstudy#21 kitaoka
20191120 beyondstudy#21 kitaoka
beyond Co., Ltd.
JAWS-UG AI #0用資料
2016 06-30-deep-learning-archi
2016 06-30-deep-learning-archi
Daisuke Nagao
kube-system 意識していますか? (私は意識してませんでした) kube-dns が死んだりすると、サービス停止しちゃいます (経験談) せっかくなのでkube-systemをそれぞれ落として、影響を調べてみました。 (反省を兼ねて) 今回はGKEで試しています
kube-system落としてみました
kube-system落としてみました
Shuntaro Saiba
3S ゼミ コンピューターの構成と設計 第5版
パタヘネゼミ 第6章
パタヘネゼミ 第6章
okuraofvegetable
NVIDIA プロファイラを用いたPyTorch学習手法のご紹介 Note: 一部のtypo等を修正して再アップロードしています。修正版はコチラ↓ https://www.slideshare.net/ManaMurakami1/nvidia-pytorch-250082591
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
ManaMurakami1
GCPUG 女子会 Kubernets 編
20221105_GCPUG 女子会 Kubernets 編.pdf
20221105_GCPUG 女子会 Kubernets 編.pdf
Google Cloud Platform - Japan
イベント名:HWAUG & GPU-Accelerated VDI Community Meetup in 札幌 https://h-watson.connpass.com/event/44378/ テーマ:「IBM Watson技術紹介とGPUを利用した高性能仮想デスクトップの最新動向」 主催 : 北海道Watsonユーザー会(HWAUG) & Japan GPU-Accelerated VDI Community
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Atsumori Sasaki
タイトル:GPU Container as a Serviceを実現するための最新OSS徹底比較 講師:松本 赳明(NTTコミュニケーションズ) アジェンダ: - 背景&目的 - GPU環境 望ましい要件 - コンテナ技術関連 各種OSSツール比較 - OpenStack連携によるマルチテナント 実現 - GPU Container as a Service つくってみた
GPU Container as a Serviceを実現するための最新OSS徹底比較 - OpenStack最新情報セミナー 2017年7月
GPU Container as a Serviceを実現するための最新OSS徹底比較 - OpenStack最新情報セミナー 2017年7月
VirtualTech Japan Inc.
20130126 sc12-reading
20130126 sc12-reading
Toshiya Komoda
Cloud Native Days Kansai 2019の発表資料です GitOpsの話をします
Kuberneteの運用を支えるGitOps
Kuberneteの運用を支えるGitOps
shunki fujiwara
どっかのどっかーでどかんとやるぜ。
俺とKubernetes
俺とKubernetes
Masayuki KaToH
ServerlessDays Fukuoka 2019 2019/12/14
ぼうけんにでかけよう Kubernetes KEDA
ぼうけんにでかけよう Kubernetes KEDA
Tsukasa Kato
Kubernetes Meetup Tokyo #45 LT
Autopilot google kubernetes engineでargo workflowsを動かす
Autopilot google kubernetes engineでargo workflowsを動かす
shouta yoshikai
2019 年 11 月 18 日 Google Cloud INSIDE Game & Apps 『私たちがGCPを使い始めた本当の理由』 グリー株式会社 堀口 真司氏のセッションの登壇スライドです。
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
Google Cloud Platform - Japan
「第 9 回 Google Cloud INSIDE Games & Apps」で発表された資料です。
私たちがGCPを使い始めた本当の理由
私たちがGCPを使い始めた本当の理由
gree_tech
KubeFlow MeetUp #1での発表資料です.
KubeFlow MeetUp #1 Katibよもやま話
KubeFlow MeetUp #1 Katibよもやま話
Yuji Oshima
Similar to KubernetesでGPUクラスタを管理したい
(20)
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
ディープラーニングイメージで構築する快適・高速な機械学習環境
ディープラーニングイメージで構築する快適・高速な機械学習環境
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
20191120 beyondstudy#21 kitaoka
20191120 beyondstudy#21 kitaoka
2016 06-30-deep-learning-archi
2016 06-30-deep-learning-archi
kube-system落としてみました
kube-system落としてみました
パタヘネゼミ 第6章
パタヘネゼミ 第6章
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
20221105_GCPUG 女子会 Kubernets 編.pdf
20221105_GCPUG 女子会 Kubernets 編.pdf
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
GPU Container as a Serviceを実現するための最新OSS徹底比較 - OpenStack最新情報セミナー 2017年7月
GPU Container as a Serviceを実現するための最新OSS徹底比較 - OpenStack最新情報セミナー 2017年7月
20130126 sc12-reading
20130126 sc12-reading
Kuberneteの運用を支えるGitOps
Kuberneteの運用を支えるGitOps
俺とKubernetes
俺とKubernetes
ぼうけんにでかけよう Kubernetes KEDA
ぼうけんにでかけよう Kubernetes KEDA
Autopilot google kubernetes engineでargo workflowsを動かす
Autopilot google kubernetes engineでargo workflowsを動かす
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps
私たちがGCPを使い始めた本当の理由
私たちがGCPを使い始めた本当の理由
KubeFlow MeetUp #1 Katibよもやま話
KubeFlow MeetUp #1 Katibよもやま話
More from Yuji Oshima
2020/05/28開催のMLCT#12のスライドです.
MLCT#12 使われる機能目指して 測ったり試したり
MLCT#12 使われる機能目指して 測ったり試したり
Yuji Oshima
TensorFlow User Group #8での発表資料です
KubeFlowでどこまでいける?
KubeFlowでどこまでいける?
Yuji Oshima
分析基盤トーク#1 DAFT #1 オープニング資料です.
2018 07-23
2018 07-23
Yuji Oshima
DockerMeetup #24 でのLTです
2018 07-19dist
2018 07-19dist
Yuji Oshima
Machine Learning Casual Talks #5 でのLT
Katib
Katib
Yuji Oshima
クラウドネイティブ勉強会
Infrakitの話とk8s+GPUの話
Infrakitの話とk8s+GPUの話
Yuji Oshima
DockerCon 2017 Recap Meetupの資料です。
Infrakit Docker_Tokyo_meetup
Infrakit Docker_Tokyo_meetup
Yuji Oshima
JAWSコンテナ支部 #3の資料です.
Docker1.12イングレスロードバランサ
Docker1.12イングレスロードバランサ
Yuji Oshima
PaaS勉強会#31の発表資料です.
runC概要と使い方
runC概要と使い方
Yuji Oshima
Tremaday #7 で発表した資料です.
近頃のDockerネットワーク
近頃のDockerネットワーク
Yuji Oshima
More from Yuji Oshima
(10)
MLCT#12 使われる機能目指して 測ったり試したり
MLCT#12 使われる機能目指して 測ったり試したり
KubeFlowでどこまでいける?
KubeFlowでどこまでいける?
2018 07-23
2018 07-23
2018 07-19dist
2018 07-19dist
Katib
Katib
Infrakitの話とk8s+GPUの話
Infrakitの話とk8s+GPUの話
Infrakit Docker_Tokyo_meetup
Infrakit Docker_Tokyo_meetup
Docker1.12イングレスロードバランサ
Docker1.12イングレスロードバランサ
runC概要と使い方
runC概要と使い方
近頃のDockerネットワーク
近頃のDockerネットワーク
Recently uploaded
2024/05/25 serverless Meetup osaka
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
This presentation introduces a paper about offline reinforcement learning.
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
第23回 Customer系エンジニア座談会 の LT 公開用スライドです。 https://customer-x-engineer.connpass.com/event/314639/ クラウド電話システム CallConnect に興味を持った方はこちら。 https://www.callconnect.jp/?slideshare お気軽にフォロー/DM お待ちしています。 https://x.com/24guchia https://www.facebook.com/eiichi.nishiguchi
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
瑛一 西口
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料) 2024年4月24日(水) 株式会社NTTデータグループ 技術開発本部 笠原 辰仁
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
サイバーエージェントAI事業部の新卒研修で利用したスライドを公開します。
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
This presentation introduces a paper about offline reinforcement learning.
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
https://iotlt.connpass.com/event/318403/
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
Ayachika Kitazaki
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
Security-JAWS【第33回】 勉強会 https://s-jaws.doorkeeper.jp/events/173294
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
keikoitakurag
YouTube nnabla channelの次の動画で利用したスライドです。 【AI論文解説】Consistency ModelとRectified Flow https://youtu.be/3IKCrAPe55k Consistency ModelとRectified Flowに関連する以下の論文を紹介しています。 Consistency models(解説編Part1で紹介) - “Consistency Models,” ICML 2023. - “Improved Techniques for Training Consistency Models,” ICLR 2024. - “Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion,” ICLR 2024. Rectified flow(解説編Part2で紹介) - “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow,” ICLR 2023. - “InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation,” ICLR 2024.
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
Recently uploaded
(11)
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
KubernetesでGPUクラスタを管理したい
1.
kubernetesでGPUクラスタ 管理したい NTT ソフトウェアイノベーションセンタ 大嶋悠司
2.
モチベーション • 機械学習 • 分散学習タスクの場合にいちいちノードにログインしたくない •
複数のタスクを並列で走らせたい • コンテナ単位で管理できればデプロイも楽
3.
なぜkubernetesなのか • コンテナオーケストレータの覇者であることがほぼ確定 • スケジューラなどが拡張しやすい •
アルファ版だがGPUサポートが有る • コミュニティとしても盛り上がってるところ • https://github.com/google/kubeflow • https://github.com/tensorflow/k8s
4.
GPUマネージメントのドキュメント 読めばなんなくわかる
5.
kubernetesでGPU管理の構成 Node GPU DLフレームワーク Nvidiaライブラリ Nvidiaドライバ
6.
spec: template: metadata: labels: app: mxd-worker1 spec: volumes: - name:
nvidialib hostPath: path: /usr/lib/nvidia-375 containers: - name: mxd-worker1 image: mxnet/python:gpu volumeMounts: - mountPath: /usr/local/nvidia name: nvidialib readOnly: true resources: requests: alpha.kubernetes.io/nvidia-gpu: 4 limits: alpha.kubernetes.io/nvidia-gpu: 4 これで大丈夫 ドキュメントにもそう書いてある
7.
8.
Nvidia-dockerなら動いたのに・・・
9.
(旧) Nvidia-dockerはどうやってるいたか 謎の力で必要なライブラリを /var/lib/nvidia-docker/volumes/nvidia_driver/{バージョン} に集めてくれる で、それをマウントしてる
10.
解決策 kubernetesクラスタ構築前にnv-dockerをインストールしてライブ ラリだけ集めた後 /var/lib/nvidia-docker/volumes/nvidia_driver/{バージョン} をマウント 結果:動いた! 不満点1:マウントパスに各ノードのcudaのバージョンが必要 不満点2:nvidia-docker1.0はプロジェクトが終了してる
11.
もっとかっこよくなりませんか…? 手段 1. kubernetes +
docker + nvidia-docker2 2. kubernetes + cri-containerd + nvidia-container-runtime 3. ??? 目標 1. コミュニティでちゃんとサポートされそうなこと 2. k8sのマニフェストにノード固有の設定が不要なこと
12.
nvida-docker2, nvidia-container-runtime • nvidiaが最近始めたプロジェクト •
OCIランタイムスペックに準拠したGPUを利用するためのコンテ ナランタイム • ホスト側のCUDAのバージョンを自動的に認識してなんとかして くれる • 最新版のdockerにも対応してる • 特徴として環境変数でGPU数や、GPUアーキテクチャの指定な どを細かく指定できる
13.
docker, containerd, runcおさらい dockerd containerd runc shim runc shim runc shim OCI
ランタイムスペック
14.
nvidia-docker2のやること dockerd containerd runc shim runc shim nvidia runtime shim OCI ランタイムスペック
15.
nv-docker, nv-runtime, k8sの関係 k8sはdocker,
cri-containerdに対して deviceオプションでGPUデバイスを、-vでライブラリを入れる デバイスオプション このpodにはGPU 2つ ライブラリのマウントはユーザの責任 2 GPUマウントするよー
16.
nv-docker, nv-runtime, k8sの関係 旧nv-dockerも一緒 デバイスオプション このコンテナにはGPU
2つ ライブラリのマウントも自動 2 GPUマウントするよー
17.
nv-docker, nv-runtime, k8sの関係 nvidia-docker2,
nv-runtimeは違う 環境変数でGPU数指定 NVIDIA_VISIBLE_DEVICES=0,1 このコンテナにはGPU 2つ 2GPUマウントしよう デバイス・ライブラリのマウント
18.
方法1:k8s + docker
+ nvidia-docker2 Node GPU nv-runtime 素直な構成、安心と信頼の?docker
19.
構築手順 • ワーカにnvidiaドライバインストール • 各ノードにdockerインストール •
ワーカにnvidia-docker2インストール • ワーカでdefault runtimeの設定変更 • kubeadmなどでkubernetesクラスタ構築
20.
各ワーカでの設定 { "default-runtime": ”nvidia", "runtimes": { ”nvidia":
{ "path": "nvidia-container-runtime" }, } } /etc/docker/daemon.json
21.
k8s + cri-containerd
+ nv-runtime Node GPU CRI-containerd nv-runtime alpha版の組み合わせでちょっと怖い でも将来的にはこっちが主流かも?
22.
構築手順 • ワーカにnvidiaドライバインストール • https://github.com/kubernetes-incubator/cri-containerd
を参考に cri-containerd等を各ノードにインストール • ワーカにnvidia-container-runtimeをインストール • ワーカにcontainerdのruntimeを設定 • kubeadmなどでkubernetesクラスタ構築
23.
各ワーカでの設定 [cgroup] path = "runtime” [plugins.linux] runtime
= "/usr/bin/nvidia-container-runtime" /etc/containerd/config.tml
24.
nv-docker2, nv-runtime, k8sの組み合わせに よる問題 このpodにはGPUはない 環境変数でGPU数指定 NVIDIA_VISIBLE_DEVICES=0,1 デバイス・ライブラリのマウント このコンテナにはGPU
2つ 2GPUマウントしよう 誰が GPUを管理するか複雑になる
25.
kubernetesにGPUを管理させる • nvidia-docker2/nvidia-container-runtimeでは NVIDIA_VISIBLE_DEVICESをnoneとすればライブラリのマウントだ け行う • NVIDIA_VISIBLE_DEVICES=noneにしておきながらkubernetes側で resourceを記述する 結果: docker
+ nvidia-docker2 なら目標を満たせた cri-conainerd + nvidia-container-runtimeだとなぜかずっとpending
26.
kubernetesにGPUを管理させる • nvidia-docker2/nvidia-container-runtimeでは NVIDIA_VISIBLE_DEVICESをnoneとすればライブラリのマウントだ け行う • NVIDIA_VISIBLE_DEVICES=noneにしておきながらkubernetes側で resourceを記述する 結果: docker
+ nvidia-docker2 なら目標を満たせた cri-conainerd + nvidia-container-runtimeだとなぜかずっとpending が、これはかっこいい方法なんだろうか
27.
結論 • 現状では怪しいワークアラウンドが必要になる • nvidia-docker2を使うのも選択肢としてはありかも •
もしくは力技で関連ライブラリを共通のパスにコピーする方法 もある • kubeletは/devの上から指定するだけだが、nvidia-docker2では GPUのUUIDやアーキテクチャを指定とかいろいろ機能があるが まだkubernetesと上手く連携できない • このあたりのインタフェースの整理はこれからだと思われる
28.
ちなみに‥GKEじゃだめですか? • GKEはalphaとしてGPUインスタンスも扱える • cudaドライバのインストール等をk8sのデーモンセットでできる gcloud
alpha container clusters create gpu-cluster --accelerator type=nvidia-tesla-k80,count=1 --zone=asia-east1-a --enable-kubernetes-alpha $ kubectl apply -f daemonset.yaml https://github.com/ContainerEngine/accelerators
Download now