Successfully reported this slideshow.
Your SlideShare is downloading. ×

KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k8sjp

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 27 Ad

KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k8sjp

Download to read offline

KubeCon + CloudNativeCon Europe 2022 で発表されたいくつかの興味深いセッションを振り返りながら関連する PFN での取り組みを共有します。

KubeCon + CloudNativeCon Europe 2022 で発表されたいくつかの興味深いセッションを振り返りながら関連する PFN での取り組みを共有します。

Advertisement
Advertisement

More Related Content

Similar to KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k8sjp (20)

More from Preferred Networks (20)

Advertisement

Recently uploaded (20)

KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k8sjp

  1. 1. Kubernetes Meetup Tokyo #51(2022/05/26) SUDA Kazuki, Preferred Networks, Inc. @superbrothers KubeCon + CloudNativeCon Europe 2022 Recap
  2. 2. @superbrothers ! SUDA Kazuki / @superbrothers ▶ Preferred Networks, Inc. / エンジニア ▶ Scalar, Inc. / 技術アドバイザ ▶ Kubernetes Meetup Tokyo 共同主催者 ▶ Cloud Native Ambassador (CNCF) ▶ 技術評論社「Kubernetes実践⼊⾨」、「みんなのDocker/Kubernetes」共著書 ▶ オライリー「⼊⾨ Prometheus」、「Kubernetes で実践するクラウドネイティブ DevOps」監訳書 2
  3. 3. @superbrothers ! 今回振り返るセッション ▶ Unlimited Data Science Libraries, One Container Image, No Installation! ▶ Improving GPU Utilization using Kubernetes ▶ Building a Nodeless Kubernetes Platform + GKE Autopilot を開発した際の選択肢について知れて楽しい + Borg のなかで動かす選択肢もあったけど、 
 結果 Kubernetes + VM ノードというシンプルな選択になった理由について ▶ How to Migrate 700 Kubernetes Clusters to Cluster API with Zero Downtime + Mercedes-Bentz が既存のクラスタを Cluster API 管理に移⾏した話 + PFN も Cluster API を使ってクラスタを管理しているので楽しいセッションだった 3 今回振り返らないけど楽しかったセッション !"#$%&'()*+,-.&$/01234567
  4. 4. @superbrothers ! Unlimited Data Science Libraries, 
 One Container Image, No Installation! Marcel Hild, Red Hat & Kenneth Hoste, Ghent University
  5. 5. @superbrothers ! Unlimited Data Science Libraries,One Container Image, No Installation! 
 Marcel Hild, Red Hat & Kenneth Hoste, Ghent University ▶ AI/ML, HPC インフラでコンテナを使う挑戦 ▶ HPC (High-Performance Computing a.k.a. supercomputing) インフラならではの課題が多くある ▶ その1つが複数ツール X 複数バージョンが使える環境を求められること + 組み合わせ毎にコンテナイメージを作ろう... → イメージ数が⼤爆発 + 全部⼊りイメージを作ろう → イメージサイズが⼤爆発 ▶ 解決策 → Environment modules(Lmod + EasyBuild) + module load example/1.2.3 のような感じでバージョンを切り替えられる + 事前にツール郡をビルドして ROX なボリュームに配置しておき、コンテナ実⾏時にマウント + ベースイメージは最低限必要なツールだけを含むようにできる 5
  6. 6. Unlimited Data Science Libraries,One Container Image, No Installation! 
 Marcel Hild, Red Hat & Kenneth Hoste, Ghent University 6 8395:;
  7. 7. Unlimited Data Science Libraries,One Container Image, No Installation! 
 Marcel Hild, Red Hat & Kenneth Hoste, Ghent University 7 <=>?@/ABCD🤯 <=>?E<F/ABCD🤯
  8. 8. Unlimited Data Science Libraries,One Container Image, No Installation! 
 Marcel Hild, Red Hat & Kenneth Hoste, Ghent University 8
  9. 9. ⼀⽅で、PFN のコンテナイメージは... GHIJK LMDD
  10. 10. ⼀⽅で、PFN のコンテナイメージは... GHIJK LMDD $ wc -l Dockerfile 810 Dockerfile NO6P>Q$R$S>?TUVWXYZ[]3V<=>?^_`12a!/bc6defgGHIJ/hij klmn6opqrostuvwxbAyzoS>?TU{|}aj~•5V€/•‚goJ/ƒ„ deX#o…;†Ao<=>?^‡rVbˆ>‰QVŠ‹|Œ•/Ža2a4••‘’“6p45
  11. 11. Unlimited Data Science Libraries,One Container Image, No Installation! 
 Marcel Hild, Red Hat & Kenneth Hoste, Ghent University 11 ”•-)$/–1a’—iV˜i™K š?•>Q›œ^$”*•$žw5™
  12. 12. Unlimited Data Science Libraries,One Container Image, No Installation! 
 Marcel Hild, Red Hat & Kenneth Hoste, Ghent University 12 •(Ÿ (¡$¢$•£)¤$X!ao:;
  13. 13. Unlimited Data Science Libraries,One Container Image, No Installation! 
 Marcel Hild, Red Hat & Kenneth Hoste, Ghent University 13 P>Q/<U¥¦>Qp4!K §X¨J©ªV«¬•>-^’“®g¯°U¦D ±²³´µVP>Qvw^<=>?g¶z5D $$$$$$$$$$<=>?E<F··b<=>?@·· <U¸¹º»¼½o¾¿6aawxb S|À?T½VÁkÂ/ugo5€Ã14oa$🤔 $$$Xop#/xrp42a5€ÄÅ23vpaDD
  14. 14. @superbrothers ! Improving GPU Utilization 
 using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google
  15. 15. @superbrothers ! Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google ▶ GPU はめっちゃ⾼いリソースなので、⾼い使⽤率を⽬指したい ▶ GPU の使⽤率をどう⾼めるか、K8s で GPU は CPU と異なり単位未満の要求が認められていない ▶ 解決策として、ひとつの GPU を複数のコンテナで共有する + いくつかの⽅法があるが、このセッションでは Timesharing と Multi Instance GPUs にフォーカス ▶ Timesharing + 複数のコンテナを1つの GPU 上で動作させる。各コンテナはタイムスライスを取得する。 ▶ Multi Instance GPUs (MIGs) + A100 のような特定の NVIDIA GPU がサポートする機能 + 1つの GPU を複数のインスタンスに物理的に分離する ▶ GKE ではすでにどちらも使⽤できる 15
  16. 16. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 16 ÆÇÈ$6$ÉÇÈ$iÊoJËÌÍβÏ^ÐÑ12aoa™ jÒJbÆÇÈ$^$ÓÔÕ$i€yoa™
  17. 17. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 17 Ö@V×U»Ø^ÙjV$ÆÇÈ$~ÚÛp[5™K Ü×U»Ø6¸<-¥¹<¥^¨Ý•5™ Ã1ÙjV×U»Ø1€$ÆÇÈ$^‡Þ2aow4•$ÆÇÈ$Gß^‡Å51bK 9i€àáÅ!àâãg®äåæp45™ Æçè$/ÆÇÈ$›œ6aa€#;g¢Þ2345qré
  18. 18. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 18 (-) ·ê--ë$ìg›œy5X!a ƒoXg˜V›œbÆÉÇ$V튕=U¦^îï12Ãð|¦1oau/•5#vwxbÒvñp425„ $$$$$$$$$ò1ó/ôaÑõÂÃ95™
  19. 19. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 19 ö>÷€àV‡aói126bÇ-)$gK øœV¹ùQúûº¸i$,-ë .•,'-($^jw53àa Ùü>íg$ÙÓ$V$(¡')'•Ô+-•ýþê*$¬ÿ>¥/95D ü>íg8Þ2$(¡')'•Ô+-•ýþê*$ÙjV!"/K #ZÞ235V/b$%V&'^()qr„ 1€1b˜4N*+aó,/oa8rg-r™
  20. 20. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 20 •.2V}ˆú¥6åæp4!{íû¥/ä^¨Ý•5/b =š¬0µ/oaVb112£$/C3•5™ 4>ºˆ>í5/$ÆÇÈ$=š¬V‡ª6gK u^‡Zoaib7V}ˆú¥^8y9:™ 112$^;w5!zVa3j€V<=>D ÇŸ?-.+@$6$ÙÔAÔÓ$€ày5X!a
  21. 21. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 21 ?'• £@•.'(þ$iÊoJb2BÆ$6C`fgåDp45D
  22. 22. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 22 EÙÓÓ$VFY6b³AG<U¥¸U¥ÒbK q4^xræ5€^HOg›œ12I3:;™
  23. 23. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 23 J}ˆ<VKó6$?'• £@•.'(þ$i…L (¡')'•Ô+-•ýþê*$ÙjVAypÃ…;3ü>íg8Þ2ÊoÞƒMr ˜V¯NOP¥¦^X5i$,-ë .•,'-($/›œp42aoa/b ÆÉÇ$V튕=U¦^X2Ãxr¢à$2BÆ$VFY6K QÚü>íg$,•'(,$/R€oa„$oSvTr™
  24. 24. Improving GPU Utilization using Kubernetes Maulin Patel & Pradeep Venkatachalam, Google 24 EÙÓÓ$$2BÆ$^‡ajjb?'• £@•.'(þ$ÃUŽgy5ÞVa™ W¢5€xr€6.jg12X ?'• £@•.'(þ$VFYb/a2a5FYg6K ‡aYÞ2345VIÝ:95™ !vb=š¬0µ^HOg›œ1i€oaiawoaVbK $$$$$UŽZªy5€6Z€àoa 2BÆ$6$?'• £@•.'(þ$i[Þ2¬ÿ>¥/C`fgåDp45Vb 4>ºˆ>í/ug•5˜i/oaW=š¬0µÃ]^gp45X ƒoXgb³_Ò`a2ØV$?'• £@•.'(þ$6$ÆÉÇ$aQÞVa#vwxbbc/‡ró,695#vTr€™ dÞ25e/a!àI1Å2D
  25. 25. PFN での GPU 使⽤率を改善する取り組み ü>íVG$ÆÇÈ$^$Ç-)$äfU•5D xV$ÆÇÈ$^‡r€6ö>÷g[ $$$$ÆÇÈ$=š¬^hi1Þjo1V}ˆú¥^ $$$$$$$kœläm•nV¨JWXÃ
  26. 26. 機械学習プラットフォームエンジニア ▶ ⾃由度・拡張性・使いやすさのトレードオフが取れた⼤規模機械学習 プラットフォームの機能設計と開発 + 例: 機械学習ワークフローツール、実験管理ツール、 
 GPUやMN-Core向け統合開発環境の構築 ▶ ⼤規模機械学習プラットフォームの運⽤と運⽤改善(⾃動化等) + 例: ⾃動サーバプロビジョニング、パブリッククラウド連携による 運⽤効率化、インフラ健全性の⾃動診断と保守省⼒化 ▶ ⼤規模機械学習プラットフォーム上での計算資源 
 (GPU, MN-Coreを含む)配分の最適化 + 例: Kubernetes Schedulerの機能拡張、 
 リソース利⽤量制限拡張の開発 ▶ 最先端の分散計算基盤技術の Proof of Concept 構築及び 
 プラットフォームでの実⽤化 + 例: Kubernetes上での分散強化学習実⾏ツール We're hiring! https://www.preferred.jp/ja/careers/
  27. 27. @superbrothers ! Appendix ▶ Unlimited Data Science Libraries, One Container Image, No Installation! - Marcel Hild, Red Hat & Kenneth Hoste, Ghent University + https://sched.co/ytlJ ▶ Improving GPU Utilization using Kubernetes - Maulin Patel & Pradeep Venkatachalam, Google + https://sched.co/ytlt ▶ PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 ▶ オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜(2022/3/24) - YouTube 27

×