KubeFest Tokyo 2020に登壇させていただきました。その際の資料となっております。 https://k8sjp.connpass.com/event/176105/ https://k8sjp.github.io/kubefest-2020/ — ヤフーでは600以上のKubernetesクラスタ、それを構成する13000を超えるノードが存在しています(2020年5月時点)。この数多くのクラスタをZ Labが開発したKubernetes as a Serviceを使用して、20人程度の1つのチームで管理しています。 管理チームはクラスタを払い出して終了ではありません。600以上のクラスタ全てが正常に稼働しているか、状態を監視しています。 本セッションではKubernetesクラスタの監視・運用技術について、クラウドネイティブ時代の監視の基礎をお話し、ヤフーにおいて大量クラスタからいかに情報を集約し、少ないメンバーで安定稼働を実現しているかご紹介いたします。