SlideShare a Scribd company logo
Batch/HPCの潮流と
Scheduler拡張事例
Kubernetes Meetup Tokyo #51, 2022/05/26(Thu)
Shingo Omura, Preferred Networks, Inc.
@everpeace
KubeCon + CloudNativeCon Europe 2022 Recap
2
@everpeace
▶ Preferred Networks, Inc. / エンジニア
▶ 社内向けGPUクラスタの開発運用
▶ 社内クラスタ向けにkube-schedulerを拡張
▶ 主にkubernetes sig-scheduling で活動中
Shingo OMURA / @everpeace
3
@everpeace
PFN のオンプレML基盤の取り組み
オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFNにおける取り組み
We're Hiring!!
機械学習Platform
エンジニア
4
セッション動画がまだ公開されていない物もあり
参加時の記憶&公開スライドからの情報まとめです
一部間違っているところがあるかもしれません
󰢛ご容赦ください󰢜
5
KubeCon + CloudNativeCon Europe 2022
Batch/HPC on Kubernetes
最新潮流
6
@everpeace
● KeynoteにHPCというキーワードが登場。多分初めて。
○ Keynote: Building Bridges: Cloud Native and High
Performance Computing - Ricardo Rocha, Computing
Engineer, CERN
● Kubernetes Batch + HPC Dayが初開催(コロケイベント)
○ 5 sessions + 3 LTs
● KubeCon + CloudNativeConのセッションは
○ 9 session + 1 LT ("Batch", "HPC")
Batch/HPC on Kubernetes 最新潮流
7
@everpeace
High Perfomance Computingの特徴
Keynote: Building Bridges: Cloud Native and High Performance Computing
大量のJobが
大量に通信し合う
(x00Gbps)
超低レイテンシ
InfiniBand等
ナノ〜マイクロ秒
高速に計算したいの
でCPUとメモリは
近いほうがいい
多種多様な
ソフトウェア
が必要
(次のスライド)
8
@everpeace
HPCにおける高度なスケジューリング要求
Keynote: Building Bridges: Cloud Native and High Performance Computing
Workload単位(種類の異なるPod群)
Queueingしたい異なるWorkload間
に優先度つけたい
リソースは公平に使いたい
(寡占、独占は避けたい)
通信し合うので一気にスケジュールしたい
入力だけ違うジョブを大量に投げたい
9
@everpeace
● 基盤系キーワード
○ Volcano(旧 kube-batch)
○ Kubernetes Batch Working Group
■ Kueue
● 事例はあまり多くない
○ HPC
■ Kubernetes as a Substrate for ATLAS Compute (Univ. of Texas, TU München)
■ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL)
○ Batch
■ Spark on Kubernetes: The Elastic Story (Apple)
■ Supporting Long-Lived Pods Using a Simple Kubernetes Webhook (Slack)
● Scheduler拡張系結構多い→このあと特集します
Batch/HPC on Kubernetes 最新潮流
10
@everpeace
● 基盤系
○ Volcano: Intro & Deep Dive (Huawei)
○ Introduction to the Kubernetes WG Batch (Google, Alibaba)
○ Kueue: A Kubernetes-native Job Queueing (Google)
● 事例系
○ Kubernetes as a Substrate for ATLAS Compute (CERN)
○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, Lawrence
Livermore National Laboratory)
Selected Sessions: Batch/HPC on k8s 最新潮流
11
KubeCon + CloudNativeCon Europe 2022
Batch/HPC on k8s 最新潮流
<基盤系>
12
@everpeace
Volcano: Intro & Deep Dive
旧kube-batch
2022/04 Incubatingに
50社以上
Production利用
Federationは
現時点で
未サポート
13
@everpeace
● CRDベー
ス:Queue/PodGroup/
Job
● 独自scheduler
● Scheduling Policy
がかなり多彩
Volcano: Intro & Deep Dive
DRFベースのFair Share
(Job単位, NS単位)
Parameter Serverと
Workerを近くに配置
NUMA的に空いているとこ
ろにスケジュール
Time Division Multiplex
一定期間以上走っている
Podをpreemptionできる
(zoneごとに期間等設定可)
スケジュールされるまでの
時間を保証
独自Device Pluginで
メモリ単位でGPU要求可
(Isolation無し)
Queue単位で
最低リソース量保証
14
@everpeace
Introduction to the Kubernetes WG Batch
Mission: Kubernetes coreとしてBatchをどのようにサポートするかを議論&実装
※WG組成にあたっては結構議論があった模様(kubernetes/community#6263)
● 同日にCNCF TAG-RuntimeにBatch System Initiative(BSI) WGの提案があったり(cncf/tag-runtime#38)、
● Kubernetes WGじゃなくてCNCF側だけで十分じゃないか(Volcano, Apache Yunikornとかあるよ)?とか、
● Kubernetes WGとCNCF BSI WGとどういうふうに役割を分担する?とか、
● Gang-SchedulingもQueue/Hierarchical Queueの概念もVolcanoですでに実装されているよ、とか
● Kubernetes WGはKubernetesとしてどうBatchをサポートするかにフォーカスしてCNCFのBSIとは協調関係とか。
15
@everpeace
Introduction to the Kubernetes WG Batch
SIG-Appsでのコレまでの活動
● Indexed Jobs, Suspended jobs, TTL after Finish, Accurate
job tracking, Number of ready pods (Job系)
● CronJob
● Pod deletion cost
SIG-Nodeでのコレまでの活動
● Topology manager
● Topology-aware scheduling plugin
(via NodeResourceTopology CRD)
SIG-Schedulingでのコレまでの活動
● Co-Scheduling
● CapacityScheduling (via ElasticResourceQuota CRD)
● Binpack
(via RequestedToCapacityRatioResourceAllocation plugin)
16
@everpeace
Introduction to the Kubernetes WG Batch
bit.ly/k8s-reservations
まだGoogle Docsで議論中
KEP-3063: dynamic resource allocation
多分このKEPの事だと思われます
17
@everpeace
● batch/v1.Job, Workload API をコアとしてJob Queueingを実現
○ kube-scheduler & scheduler-pluginsで動く
● Batch Admin→テナントにCapacity を割り当てる
● Batch User→Capacityに紐づくQueueを使う
Kueue: A Kubernetes-native Job Queueing
18
@everpeace
● ClusterQueue
○ Capacity, Cohort(capacityを融
通し合うグループ)を定義
● Queue
○ ClusterQueueを参照して属す
Capacityを指定する
● Job
○ annotationでQueueを指定する
○ spec.queueNameを提案中
(k/k#106886)
● Workload API
○ 複数種Pod群によるジョブ
Kueue: A Kubernetes-native Job Queueing
Kueue入門
が詳しいです!
19
@everpeace
Kueue: A Kubernetes-native Job Queueing
※ Keynote: Building Bridges: Cloud Native and High Performance Computing より引用
Cohortによるリソース融
通のデモもありました!
20
KubeCon + CloudNativeCon Europe 2022
Batch/HPC on k8s 最新潮流
<事例系>
21
@everpeace
Kubernetes as a Substrate for ATLAS Compute
ATLASはCERNの大型ハドロン衝突型加速器にある素粒子物理実験装置
全体で600PBytesのデータ
700K+ vCPUs(一部クラウド有)
2020年に始めたMiniK8s Gridは現在は
Googleでバーストさせてトータル 100k vCPU
22
@everpeace
Kubernetes as a Substrate for ATLAS Compute
CernVMFS
PanDA
Production and
Distributed Analysis
Jupyter+Daskの部分は
デモもあったので是非
ビデオ見てください!
23
@everpeace
KubeFlux: An HPC Scheduler Plugin for Kubernetes
Lawrence Livermore National Laboratoryの
ElCapitan (2023予定) は >2 exaFLOPS!!
(富岳は442 PFLOPS)
※現行設備は言及なし
紹介されたユースケースは生物系が多い
10%くらいしかcloud利用していないが
今後増えていく予定
24
@everpeace
KubeFlux: An HPC Scheduler Plugin for Kubernetes
● HPC ClusterとKubernetes
Clusterが別
● HPC ClusterからKubernetes
Clusterにあるデータベースに
アクセスする
● KubernetesではJupyterLabで
色々実験できるらしい
※アップロードされたスライドから引用 (実際のセッションでは使用されていなかった )
25
KubeCon + CloudNativeCon Europe 2022
Scheduler最新拡張事例
26
@everpeace
● Batch/HPCで登場したセッション
○ Working your Cluster: Smarter Scheduling Decisions for Your
Workloads (Intel)
→ Telemetry Aware Scheduling (Custom Metrics API連携)
○ Resource Orchestration of HPC on Kubernetes: Where We Are Now
and the Journey Ahead! (RedHat) → NUMA Aware Scheduling
○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL)
→ HPC Scheduler & kube-scheduler連携
● 純粋にScheduler拡張系のセッション
○ Network-aware Scheduling in Kubernetes (Ghent University)
→Infrastructure Topology & Network Aware Scheduling
Selected Sessions: Scheduler最新拡張事例
27
@everpeace
Telemetry Aware Scheduling
Working your Cluster: Smarter Scheduling Decisions for Your Workloads
Nodeメトリクスを
カスタムメトリクス
APIでexposeする
Scheduler Extender
として動作してPodの
TAS Policyをenforce
TAS Policy CR
(Telemetry Aware
Scheduling Policy)
28
@everpeace
Telemetry Aware Scheduling
Working your Cluster: Smarter Scheduling Decisions for Your Workloads
dontschedule strategy:
health_metric メトリクスが1なNodeにはscheduleしない
scheduleonmetric strategy:
temperature メトリクスが少ないNodeにスケジュールされる
labeling strategy:
memory_used_card0メトリクスが100を超えたら card0=trueって
いうnode labelを付与
deschedule stragety:
tempertureメトリクスが80を超えたらdeschedule
freeRAMメトリクスが200を切ったらdeschedule
29
@everpeace
NUMA Aware Scheduling
Resource Orchestration of HPC on Kubernetes: Where We Are Now and the Journey Ahead!
kube-schedulerはNodeのNUMA利用状況を
知らない
→ Topology Manager Policyがきついと
  PodがScheduleされてもErrorで全然
 上がらない
30
@everpeace
NUMA Aware Scheduling
Resource Orchestration of HPC on Kubernetes: Where We Are Now and the Journey Ahead!
KubeletのPodResource APIを使って
resourceのassign状況を
NodeResourceTopology CRにexpose
Scheduler Pluginで
NodeResourceTopology CR
を見てschedule判断
Node毎に生成される
zone: NUMA, socket, die, etc.
cost: zone間の距離を表す指標
31
@everpeace
HPC Scheduler & kube-scheduler連携
KubeFlux: An HPC Scheduler Plugin for Kubernetes
コレまでのnode-centricなmodelは
● monogenousな環境向け
● Heterogeneousな環境だと効率悪い
● リソースの包含関係をグラフとして表現
● リッチなグラフtraversal/allocaiton API
● 複雑なスケジューリングをcodeを
変更せずに実現可能
※SIG-Schedulingのsubprojectだった
 Poseidonと少し違う感じがするが
 詳細不明
32
@everpeace
HPC Scheduler & kube-scheduler連携
KubeFlux: An HPC Scheduler Plugin for Kubernetes
● Fluxionをsidecarで実行
● Scheduler PluginはgRPCで連携
● Plugin的にはPreFilter/Filterだけを実装
● Scheudling判断はすべてFluxionに移譲
33
@everpeace
Infra Topology & Network Aware Scheduling
Network-aware Scheduling in Kubernetes
アプリケーション間の依存やインフラのトポロジー
を考慮したスケジューリング (Contextual
Awarenessと表現)が出来ていない
ネットワークレイテンシや帯域を考慮した
スケジューリングがしたい
34
@everpeace
Infra Topology & Network Aware Scheduling
Network-aware Scheduling in Kubernetes
NetworkTopology CR:
region間、zone間といったネットワー
クインフラのトポロジーとそれぞれの
間のネットワークコストをモデリング
する
35
@everpeace
Infra Topology & Network Aware Scheduling
Network-aware Scheduling in Kubernetes
AppGroup CR:
アプリケーション内のサービスの依存
関係、利用帯域、コストなどをモデリ
ング
P2はP3に依存
最低250Mi必要
36
@everpeace
Infra Topology & Network Aware Scheduling
Network-aware Scheduling in Kubernetes
NetworkOverhead Plugin:
● スケジュールしようとしているPodのAppGroupの通信パターンとNetworkTopology
の帯域容量をみてNodeをFilter, 通信Costが低くなるようなNodeを選択
TopologicalSort Plugin:
● AppGroupの依存関係の下流から順番にスケジュール
37
@everpeace
● HPC/Batchに特化したKeynoteやCollocated Eventが出現
● Volcanoが機能的にはかなりリッチ
○ 独自スケジューラだったりするので採用にはなかなか勇気がいるが、Incubating
Projectになったのでそろそろ検討候補か?
● Kubernetes Batch WGが出来た
○ 出来たばかりなのでまだまだこれから
○ Kueueはscheduler再開発してないのが好印象
● HPC/Batch事例発表は多くない
○ 柔軟なスケジュールしたい場合は独自でScheduleしてたり
○ ライトにbatch/v1.Jobを使っている事例にとどまっている
○ Volcanoを使った事例発表もなかったと思われる
● kube-schedulerを拡張する事例はどんどん出てきていて面白い
まとめ
Making the real world computable
39
@everpeace
● Batch/HPC基盤系
○ [Keynote] High Performance Computing on Google Kubernetes Engine(Google)
○ Kueue: A Kubernetes-native Job Queueing (Google)
○ Volcano – Cloud Native Batch System for AI, BigData and HPC (Huawei)
○ Fast Data on-Ramp with Apache Pulsar on K8 (StreamNative)
○ Efficient Deep Learning Training with Ludwig AutoML, Ray, and Nodeless Kubernetes
(Elotl, Predibase)
● HPC系事例
○ [LT] How to Handle Fair Scheduling in a Private Academic K8s infrastructure (Masaryk
University, CESNET)
● Scheduler系
○ Resource Orchestration of HPC on Kubernetes: Where We Are Now and the Journey
Ahead! (RedHat)
○ Get More Computing Power by Helping the OS Scheduler (Intel)
○ Apache YuniKorn A Kubernetes Scheduler Plugin for Batch Workloads(Cloudera)
[参考] Kubernetes Batch + HPC Day
40
@everpeace
● Batch/HPC基盤系
○ Volcano: Intro & Deep Dive (Huawei)
○ Introduction to the Kubernetes WG Batch (Google, Alibaba)
○ Unlimited Data Science Libraries, One Container Image, No Installation! (Red Hat, Ghent Univ.)
○ [LT]Secure Multi User HPC Jobs in Kubernetes with Kyverno (Ohio Supercomputer Center)
● Batch系事例
○ Spark on Kubernetes: The Elastic Story (Apple)
○ Supporting Long-Lived Pods Using a Simple Kubernetes Webhook (Slack)
● HPC系事例
○ Kubernetes as a Substrate for ATLAS Compute (CERN)
○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL)
● Scheduler系
○ Working your Cluster: Smarter Scheduling Decisions for Your Workloads (Intel)
○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL)
[参考]KubeCon + CloudNativeCon (Batch/HPC系)

More Related Content

What's hot

続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
Preferred Networks
 
コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線
Motonori Shindo
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
 
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
Ryuichi Sakamoto
 
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-clusterKubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
Preferred Networks
 
コンテナ未経験新人が学ぶコンテナ技術入門
コンテナ未経験新人が学ぶコンテナ技術入門コンテナ未経験新人が学ぶコンテナ技術入門
コンテナ未経験新人が学ぶコンテナ技術入門
Kohei Tokunaga
 
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
NTT DATA Technology & Innovation
 
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjpKubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
Preferred Networks
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
NTT DATA Technology & Innovation
 
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
Preferred Networks
 
Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門
Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門
Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門
Preferred Networks
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
Hitoshi Sato
 
Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
 
containerdの概要と最近の機能
containerdの概要と最近の機能containerdの概要と最近の機能
containerdの概要と最近の機能
Kohei Tokunaga
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
Yahoo!デベロッパーネットワーク
 
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
NTT DATA Technology & Innovation
 
10分でわかる Cilium と XDP / BPF
10分でわかる Cilium と XDP / BPF10分でわかる Cilium と XDP / BPF
10分でわかる Cilium と XDP / BPF
Shuji Yamada
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
 
Stargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動する
Stargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動するStargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動する
Stargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動する
Kohei Tokunaga
 
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
NTT DATA Technology & Innovation
 

What's hot (20)

続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
 
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-clusterKubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
 
コンテナ未経験新人が学ぶコンテナ技術入門
コンテナ未経験新人が学ぶコンテナ技術入門コンテナ未経験新人が学ぶコンテナ技術入門
コンテナ未経験新人が学ぶコンテナ技術入門
 
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
 
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjpKubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
 
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
 
Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門
Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門
Kubernete Meetup Tokyo #18 - Kubebuilder/controller-runtime 入門
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
 
Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦
 
containerdの概要と最近の機能
containerdの概要と最近の機能containerdの概要と最近の機能
containerdの概要と最近の機能
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
 
10分でわかる Cilium と XDP / BPF
10分でわかる Cilium と XDP / BPF10分でわかる Cilium と XDP / BPF
10分でわかる Cilium と XDP / BPF
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
 
Stargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動する
Stargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動するStargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動する
Stargz Snapshotter: イメージのpullを省略しcontainerdでコンテナを高速に起動する
 
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
Kubernetes環境に対する性能試験(Kubernetes Novice Tokyo #2 発表資料)
 

Similar to KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kubernetes Meetup Tokyo #51 / #k8sjp

CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜
CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜
CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜
Masaya Aoyama
 
新しいOpenShiftのしくみを調べてみた
新しいOpenShiftのしくみを調べてみた新しいOpenShiftのしくみを調べてみた
新しいOpenShiftのしくみを調べてみた
Kazuto Kusama
 
kube-system落としてみました
kube-system落としてみましたkube-system落としてみました
kube-system落としてみました
Shuntaro Saiba
 
Kube con + cloudnativecon 2017 社内報告会(外部公開用)
Kube con + cloudnativecon 2017 社内報告会(外部公開用)Kube con + cloudnativecon 2017 社内報告会(外部公開用)
Kube con + cloudnativecon 2017 社内報告会(外部公開用)
Masaya Aoyama
 
[GKE & Spanner 勉強会] GKE 入門
[GKE & Spanner 勉強会] GKE 入門[GKE & Spanner 勉強会] GKE 入門
[GKE & Spanner 勉強会] GKE 入門
Google Cloud Platform - Japan
 
Infra: Kubernetes and GKE, Network
Infra: Kubernetes and GKE, NetworkInfra: Kubernetes and GKE, Network
Infra: Kubernetes and GKE, Network
Kuma Arakawa
 
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
JUNICHI YOSHISE
 
Kubernetes超入門 with java
Kubernetes超入門 with javaKubernetes超入門 with java
Kubernetes超入門 with java
Yasunari Tanaka
 
もっとも簡単なKubernetes構築 on Raspberry pi (July tech festa winter 2021)
もっとも簡単なKubernetes構築 on Raspberry pi  (July tech festa winter 2021)もっとも簡単なKubernetes構築 on Raspberry pi  (July tech festa winter 2021)
もっとも簡単なKubernetes構築 on Raspberry pi (July tech festa winter 2021)
Kamon Nobuchika
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
Preferred Networks
 
JAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHABJAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHAB
陽平 山口
 
GKEで半年運用してみた
GKEで半年運用してみたGKEで半年運用してみた
GKEで半年運用してみた
Katsutoshi Nagaoka
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
Kuninobu SaSaki
 
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
NTT DATA Technology & Innovation
 
Kubernetes Operator for vSphere VM
Kubernetes Operator for vSphere VMKubernetes Operator for vSphere VM
Kubernetes Operator for vSphere VM
Masanori Nara
 
[External] 2021.12.15 コンテナ移行の前に知っておきたいこと @ gcpug 湘南
[External] 2021.12.15 コンテナ移行の前に知っておきたいこと  @ gcpug 湘南[External] 2021.12.15 コンテナ移行の前に知っておきたいこと  @ gcpug 湘南
[External] 2021.12.15 コンテナ移行の前に知っておきたいこと @ gcpug 湘南
Google Cloud Platform - Japan
 
Kubernetes ときどき Serverless -- cndjp第1回勉強会
Kubernetes ときどき Serverless -- cndjp第1回勉強会Kubernetes ときどき Serverless -- cndjp第1回勉強会
Kubernetes ときどき Serverless -- cndjp第1回勉強会
Hiroshi Hayakawa
 
Kubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみた
Kubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみたKubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみた
Kubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみた
Akihito Inoh
 
2018 07-19dist
2018 07-19dist2018 07-19dist
2018 07-19dist
Yuji Oshima
 
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
Koto Shigeru
 

Similar to KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kubernetes Meetup Tokyo #51 / #k8sjp (20)

CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜
CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜
CI/CD Pipeline を考える 〜KubeCon 2017 + CyberAgent の最大公倍数〜
 
新しいOpenShiftのしくみを調べてみた
新しいOpenShiftのしくみを調べてみた新しいOpenShiftのしくみを調べてみた
新しいOpenShiftのしくみを調べてみた
 
kube-system落としてみました
kube-system落としてみましたkube-system落としてみました
kube-system落としてみました
 
Kube con + cloudnativecon 2017 社内報告会(外部公開用)
Kube con + cloudnativecon 2017 社内報告会(外部公開用)Kube con + cloudnativecon 2017 社内報告会(外部公開用)
Kube con + cloudnativecon 2017 社内報告会(外部公開用)
 
[GKE & Spanner 勉強会] GKE 入門
[GKE & Spanner 勉強会] GKE 入門[GKE & Spanner 勉強会] GKE 入門
[GKE & Spanner 勉強会] GKE 入門
 
Infra: Kubernetes and GKE, Network
Infra: Kubernetes and GKE, NetworkInfra: Kubernetes and GKE, Network
Infra: Kubernetes and GKE, Network
 
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
 
Kubernetes超入門 with java
Kubernetes超入門 with javaKubernetes超入門 with java
Kubernetes超入門 with java
 
もっとも簡単なKubernetes構築 on Raspberry pi (July tech festa winter 2021)
もっとも簡単なKubernetes構築 on Raspberry pi  (July tech festa winter 2021)もっとも簡単なKubernetes構築 on Raspberry pi  (July tech festa winter 2021)
もっとも簡単なKubernetes構築 on Raspberry pi (July tech festa winter 2021)
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
 
JAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHABJAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHAB
 
GKEで半年運用してみた
GKEで半年運用してみたGKEで半年運用してみた
GKEで半年運用してみた
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
 
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
 
Kubernetes Operator for vSphere VM
Kubernetes Operator for vSphere VMKubernetes Operator for vSphere VM
Kubernetes Operator for vSphere VM
 
[External] 2021.12.15 コンテナ移行の前に知っておきたいこと @ gcpug 湘南
[External] 2021.12.15 コンテナ移行の前に知っておきたいこと  @ gcpug 湘南[External] 2021.12.15 コンテナ移行の前に知っておきたいこと  @ gcpug 湘南
[External] 2021.12.15 コンテナ移行の前に知っておきたいこと @ gcpug 湘南
 
Kubernetes ときどき Serverless -- cndjp第1回勉強会
Kubernetes ときどき Serverless -- cndjp第1回勉強会Kubernetes ときどき Serverless -- cndjp第1回勉強会
Kubernetes ときどき Serverless -- cndjp第1回勉強会
 
Kubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみた
Kubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみたKubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみた
Kubernetes Meetup Tokyo #8 Self-hosted Kubernetes を調べてみた
 
2018 07-19dist
2018 07-19dist2018 07-19dist
2018 07-19dist
 
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
 

More from Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
Preferred Networks
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Preferred Networks
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
Preferred Networks
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
Preferred Networks
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
Preferred Networks
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Preferred Networks
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
Preferred Networks
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Preferred Networks
 
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
Preferred Networks
 
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
Preferred Networks
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 
MN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOFMN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOF
Preferred Networks
 
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
Preferred Networks
 
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
Preferred Networks
 

More from Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
 
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
 
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
MN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOFMN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOF
 
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
 
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
 

KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kubernetes Meetup Tokyo #51 / #k8sjp

  • 1. Batch/HPCの潮流と Scheduler拡張事例 Kubernetes Meetup Tokyo #51, 2022/05/26(Thu) Shingo Omura, Preferred Networks, Inc. @everpeace KubeCon + CloudNativeCon Europe 2022 Recap
  • 2. 2 @everpeace ▶ Preferred Networks, Inc. / エンジニア ▶ 社内向けGPUクラスタの開発運用 ▶ 社内クラスタ向けにkube-schedulerを拡張 ▶ 主にkubernetes sig-scheduling で活動中 Shingo OMURA / @everpeace
  • 3. 3 @everpeace PFN のオンプレML基盤の取り組み オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 PFNにおける取り組み We're Hiring!! 機械学習Platform エンジニア
  • 5. 5 KubeCon + CloudNativeCon Europe 2022 Batch/HPC on Kubernetes 最新潮流
  • 6. 6 @everpeace ● KeynoteにHPCというキーワードが登場。多分初めて。 ○ Keynote: Building Bridges: Cloud Native and High Performance Computing - Ricardo Rocha, Computing Engineer, CERN ● Kubernetes Batch + HPC Dayが初開催(コロケイベント) ○ 5 sessions + 3 LTs ● KubeCon + CloudNativeConのセッションは ○ 9 session + 1 LT ("Batch", "HPC") Batch/HPC on Kubernetes 最新潮流
  • 7. 7 @everpeace High Perfomance Computingの特徴 Keynote: Building Bridges: Cloud Native and High Performance Computing 大量のJobが 大量に通信し合う (x00Gbps) 超低レイテンシ InfiniBand等 ナノ〜マイクロ秒 高速に計算したいの でCPUとメモリは 近いほうがいい 多種多様な ソフトウェア が必要 (次のスライド)
  • 8. 8 @everpeace HPCにおける高度なスケジューリング要求 Keynote: Building Bridges: Cloud Native and High Performance Computing Workload単位(種類の異なるPod群) Queueingしたい異なるWorkload間 に優先度つけたい リソースは公平に使いたい (寡占、独占は避けたい) 通信し合うので一気にスケジュールしたい 入力だけ違うジョブを大量に投げたい
  • 9. 9 @everpeace ● 基盤系キーワード ○ Volcano(旧 kube-batch) ○ Kubernetes Batch Working Group ■ Kueue ● 事例はあまり多くない ○ HPC ■ Kubernetes as a Substrate for ATLAS Compute (Univ. of Texas, TU München) ■ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL) ○ Batch ■ Spark on Kubernetes: The Elastic Story (Apple) ■ Supporting Long-Lived Pods Using a Simple Kubernetes Webhook (Slack) ● Scheduler拡張系結構多い→このあと特集します Batch/HPC on Kubernetes 最新潮流
  • 10. 10 @everpeace ● 基盤系 ○ Volcano: Intro & Deep Dive (Huawei) ○ Introduction to the Kubernetes WG Batch (Google, Alibaba) ○ Kueue: A Kubernetes-native Job Queueing (Google) ● 事例系 ○ Kubernetes as a Substrate for ATLAS Compute (CERN) ○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, Lawrence Livermore National Laboratory) Selected Sessions: Batch/HPC on k8s 最新潮流
  • 11. 11 KubeCon + CloudNativeCon Europe 2022 Batch/HPC on k8s 最新潮流 <基盤系>
  • 12. 12 @everpeace Volcano: Intro & Deep Dive 旧kube-batch 2022/04 Incubatingに 50社以上 Production利用 Federationは 現時点で 未サポート
  • 13. 13 @everpeace ● CRDベー ス:Queue/PodGroup/ Job ● 独自scheduler ● Scheduling Policy がかなり多彩 Volcano: Intro & Deep Dive DRFベースのFair Share (Job単位, NS単位) Parameter Serverと Workerを近くに配置 NUMA的に空いているとこ ろにスケジュール Time Division Multiplex 一定期間以上走っている Podをpreemptionできる (zoneごとに期間等設定可) スケジュールされるまでの 時間を保証 独自Device Pluginで メモリ単位でGPU要求可 (Isolation無し) Queue単位で 最低リソース量保証
  • 14. 14 @everpeace Introduction to the Kubernetes WG Batch Mission: Kubernetes coreとしてBatchをどのようにサポートするかを議論&実装 ※WG組成にあたっては結構議論があった模様(kubernetes/community#6263) ● 同日にCNCF TAG-RuntimeにBatch System Initiative(BSI) WGの提案があったり(cncf/tag-runtime#38)、 ● Kubernetes WGじゃなくてCNCF側だけで十分じゃないか(Volcano, Apache Yunikornとかあるよ)?とか、 ● Kubernetes WGとCNCF BSI WGとどういうふうに役割を分担する?とか、 ● Gang-SchedulingもQueue/Hierarchical Queueの概念もVolcanoですでに実装されているよ、とか ● Kubernetes WGはKubernetesとしてどうBatchをサポートするかにフォーカスしてCNCFのBSIとは協調関係とか。
  • 15. 15 @everpeace Introduction to the Kubernetes WG Batch SIG-Appsでのコレまでの活動 ● Indexed Jobs, Suspended jobs, TTL after Finish, Accurate job tracking, Number of ready pods (Job系) ● CronJob ● Pod deletion cost SIG-Nodeでのコレまでの活動 ● Topology manager ● Topology-aware scheduling plugin (via NodeResourceTopology CRD) SIG-Schedulingでのコレまでの活動 ● Co-Scheduling ● CapacityScheduling (via ElasticResourceQuota CRD) ● Binpack (via RequestedToCapacityRatioResourceAllocation plugin)
  • 16. 16 @everpeace Introduction to the Kubernetes WG Batch bit.ly/k8s-reservations まだGoogle Docsで議論中 KEP-3063: dynamic resource allocation 多分このKEPの事だと思われます
  • 17. 17 @everpeace ● batch/v1.Job, Workload API をコアとしてJob Queueingを実現 ○ kube-scheduler & scheduler-pluginsで動く ● Batch Admin→テナントにCapacity を割り当てる ● Batch User→Capacityに紐づくQueueを使う Kueue: A Kubernetes-native Job Queueing
  • 18. 18 @everpeace ● ClusterQueue ○ Capacity, Cohort(capacityを融 通し合うグループ)を定義 ● Queue ○ ClusterQueueを参照して属す Capacityを指定する ● Job ○ annotationでQueueを指定する ○ spec.queueNameを提案中 (k/k#106886) ● Workload API ○ 複数種Pod群によるジョブ Kueue: A Kubernetes-native Job Queueing Kueue入門 が詳しいです!
  • 19. 19 @everpeace Kueue: A Kubernetes-native Job Queueing ※ Keynote: Building Bridges: Cloud Native and High Performance Computing より引用 Cohortによるリソース融 通のデモもありました!
  • 20. 20 KubeCon + CloudNativeCon Europe 2022 Batch/HPC on k8s 最新潮流 <事例系>
  • 21. 21 @everpeace Kubernetes as a Substrate for ATLAS Compute ATLASはCERNの大型ハドロン衝突型加速器にある素粒子物理実験装置 全体で600PBytesのデータ 700K+ vCPUs(一部クラウド有) 2020年に始めたMiniK8s Gridは現在は Googleでバーストさせてトータル 100k vCPU
  • 22. 22 @everpeace Kubernetes as a Substrate for ATLAS Compute CernVMFS PanDA Production and Distributed Analysis Jupyter+Daskの部分は デモもあったので是非 ビデオ見てください!
  • 23. 23 @everpeace KubeFlux: An HPC Scheduler Plugin for Kubernetes Lawrence Livermore National Laboratoryの ElCapitan (2023予定) は >2 exaFLOPS!! (富岳は442 PFLOPS) ※現行設備は言及なし 紹介されたユースケースは生物系が多い 10%くらいしかcloud利用していないが 今後増えていく予定
  • 24. 24 @everpeace KubeFlux: An HPC Scheduler Plugin for Kubernetes ● HPC ClusterとKubernetes Clusterが別 ● HPC ClusterからKubernetes Clusterにあるデータベースに アクセスする ● KubernetesではJupyterLabで 色々実験できるらしい ※アップロードされたスライドから引用 (実際のセッションでは使用されていなかった )
  • 25. 25 KubeCon + CloudNativeCon Europe 2022 Scheduler最新拡張事例
  • 26. 26 @everpeace ● Batch/HPCで登場したセッション ○ Working your Cluster: Smarter Scheduling Decisions for Your Workloads (Intel) → Telemetry Aware Scheduling (Custom Metrics API連携) ○ Resource Orchestration of HPC on Kubernetes: Where We Are Now and the Journey Ahead! (RedHat) → NUMA Aware Scheduling ○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL) → HPC Scheduler & kube-scheduler連携 ● 純粋にScheduler拡張系のセッション ○ Network-aware Scheduling in Kubernetes (Ghent University) →Infrastructure Topology & Network Aware Scheduling Selected Sessions: Scheduler最新拡張事例
  • 27. 27 @everpeace Telemetry Aware Scheduling Working your Cluster: Smarter Scheduling Decisions for Your Workloads Nodeメトリクスを カスタムメトリクス APIでexposeする Scheduler Extender として動作してPodの TAS Policyをenforce TAS Policy CR (Telemetry Aware Scheduling Policy)
  • 28. 28 @everpeace Telemetry Aware Scheduling Working your Cluster: Smarter Scheduling Decisions for Your Workloads dontschedule strategy: health_metric メトリクスが1なNodeにはscheduleしない scheduleonmetric strategy: temperature メトリクスが少ないNodeにスケジュールされる labeling strategy: memory_used_card0メトリクスが100を超えたら card0=trueって いうnode labelを付与 deschedule stragety: tempertureメトリクスが80を超えたらdeschedule freeRAMメトリクスが200を切ったらdeschedule
  • 29. 29 @everpeace NUMA Aware Scheduling Resource Orchestration of HPC on Kubernetes: Where We Are Now and the Journey Ahead! kube-schedulerはNodeのNUMA利用状況を 知らない → Topology Manager Policyがきついと   PodがScheduleされてもErrorで全然  上がらない
  • 30. 30 @everpeace NUMA Aware Scheduling Resource Orchestration of HPC on Kubernetes: Where We Are Now and the Journey Ahead! KubeletのPodResource APIを使って resourceのassign状況を NodeResourceTopology CRにexpose Scheduler Pluginで NodeResourceTopology CR を見てschedule判断 Node毎に生成される zone: NUMA, socket, die, etc. cost: zone間の距離を表す指標
  • 31. 31 @everpeace HPC Scheduler & kube-scheduler連携 KubeFlux: An HPC Scheduler Plugin for Kubernetes コレまでのnode-centricなmodelは ● monogenousな環境向け ● Heterogeneousな環境だと効率悪い ● リソースの包含関係をグラフとして表現 ● リッチなグラフtraversal/allocaiton API ● 複雑なスケジューリングをcodeを 変更せずに実現可能 ※SIG-Schedulingのsubprojectだった  Poseidonと少し違う感じがするが  詳細不明
  • 32. 32 @everpeace HPC Scheduler & kube-scheduler連携 KubeFlux: An HPC Scheduler Plugin for Kubernetes ● Fluxionをsidecarで実行 ● Scheduler PluginはgRPCで連携 ● Plugin的にはPreFilter/Filterだけを実装 ● Scheudling判断はすべてFluxionに移譲
  • 33. 33 @everpeace Infra Topology & Network Aware Scheduling Network-aware Scheduling in Kubernetes アプリケーション間の依存やインフラのトポロジー を考慮したスケジューリング (Contextual Awarenessと表現)が出来ていない ネットワークレイテンシや帯域を考慮した スケジューリングがしたい
  • 34. 34 @everpeace Infra Topology & Network Aware Scheduling Network-aware Scheduling in Kubernetes NetworkTopology CR: region間、zone間といったネットワー クインフラのトポロジーとそれぞれの 間のネットワークコストをモデリング する
  • 35. 35 @everpeace Infra Topology & Network Aware Scheduling Network-aware Scheduling in Kubernetes AppGroup CR: アプリケーション内のサービスの依存 関係、利用帯域、コストなどをモデリ ング P2はP3に依存 最低250Mi必要
  • 36. 36 @everpeace Infra Topology & Network Aware Scheduling Network-aware Scheduling in Kubernetes NetworkOverhead Plugin: ● スケジュールしようとしているPodのAppGroupの通信パターンとNetworkTopology の帯域容量をみてNodeをFilter, 通信Costが低くなるようなNodeを選択 TopologicalSort Plugin: ● AppGroupの依存関係の下流から順番にスケジュール
  • 37. 37 @everpeace ● HPC/Batchに特化したKeynoteやCollocated Eventが出現 ● Volcanoが機能的にはかなりリッチ ○ 独自スケジューラだったりするので採用にはなかなか勇気がいるが、Incubating Projectになったのでそろそろ検討候補か? ● Kubernetes Batch WGが出来た ○ 出来たばかりなのでまだまだこれから ○ Kueueはscheduler再開発してないのが好印象 ● HPC/Batch事例発表は多くない ○ 柔軟なスケジュールしたい場合は独自でScheduleしてたり ○ ライトにbatch/v1.Jobを使っている事例にとどまっている ○ Volcanoを使った事例発表もなかったと思われる ● kube-schedulerを拡張する事例はどんどん出てきていて面白い まとめ
  • 38. Making the real world computable
  • 39. 39 @everpeace ● Batch/HPC基盤系 ○ [Keynote] High Performance Computing on Google Kubernetes Engine(Google) ○ Kueue: A Kubernetes-native Job Queueing (Google) ○ Volcano – Cloud Native Batch System for AI, BigData and HPC (Huawei) ○ Fast Data on-Ramp with Apache Pulsar on K8 (StreamNative) ○ Efficient Deep Learning Training with Ludwig AutoML, Ray, and Nodeless Kubernetes (Elotl, Predibase) ● HPC系事例 ○ [LT] How to Handle Fair Scheduling in a Private Academic K8s infrastructure (Masaryk University, CESNET) ● Scheduler系 ○ Resource Orchestration of HPC on Kubernetes: Where We Are Now and the Journey Ahead! (RedHat) ○ Get More Computing Power by Helping the OS Scheduler (Intel) ○ Apache YuniKorn A Kubernetes Scheduler Plugin for Batch Workloads(Cloudera) [参考] Kubernetes Batch + HPC Day
  • 40. 40 @everpeace ● Batch/HPC基盤系 ○ Volcano: Intro & Deep Dive (Huawei) ○ Introduction to the Kubernetes WG Batch (Google, Alibaba) ○ Unlimited Data Science Libraries, One Container Image, No Installation! (Red Hat, Ghent Univ.) ○ [LT]Secure Multi User HPC Jobs in Kubernetes with Kyverno (Ohio Supercomputer Center) ● Batch系事例 ○ Spark on Kubernetes: The Elastic Story (Apple) ○ Supporting Long-Lived Pods Using a Simple Kubernetes Webhook (Slack) ● HPC系事例 ○ Kubernetes as a Substrate for ATLAS Compute (CERN) ○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL) ● Scheduler系 ○ Working your Cluster: Smarter Scheduling Decisions for Your Workloads (Intel) ○ KubeFlux: An HPC Scheduler Plugin for Kubernetes (IBM, LLNL) [参考]KubeCon + CloudNativeCon (Batch/HPC系)