Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
NI
Uploaded by
NTT DATA Technology & Innovation
1,493 views
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!? (OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料) 2022年5月11日(水) NTTデータ ITSP事業本部 C&P事業部 逆井 啓佑
Technology
◦
Read more
0
Save
Share
Embed
Embed presentation
1
/ 15
2
/ 15
3
/ 15
4
/ 15
5
/ 15
6
/ 15
Most read
7
/ 15
8
/ 15
Most read
9
/ 15
10
/ 15
11
/ 15
12
/ 15
13
/ 15
14
/ 15
15
/ 15
Most read
More Related Content
PDF
BuildKitの概要と最近の機能
by
Kohei Tokunaga
PPTX
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
PDF
Dockerfile を書くためのベストプラクティス解説編
by
Masahito Zembutsu
PDF
Dockerからcontainerdへの移行
by
Kohei Tokunaga
PDF
DockerとPodmanの比較
by
Akihiro Suda
PDF
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
by
NTT DATA Technology & Innovation
PPTX
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PPTX
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
by
NTT DATA Technology & Innovation
BuildKitの概要と最近の機能
by
Kohei Tokunaga
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
Dockerfile を書くためのベストプラクティス解説編
by
Masahito Zembutsu
Dockerからcontainerdへの移行
by
Kohei Tokunaga
DockerとPodmanの比較
by
Akihiro Suda
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
by
NTT DATA Technology & Innovation
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
by
NTT DATA Technology & Innovation
What's hot
PDF
TLS, HTTP/2演習
by
shigeki_ohtsu
PPTX
AWSで作る分析基盤
by
Yu Otsubo
PDF
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
by
NTT DATA Technology & Innovation
PDF
Infrastructure as Code (IaC) 談義 2022
by
Amazon Web Services Japan
PDF
Google Cloud で実践する SRE
by
Google Cloud Platform - Japan
PDF
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
by
NTT DATA Technology & Innovation
PDF
アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...
by
Google Cloud Platform - Japan
PDF
ヤフー社内でやってるMySQLチューニングセミナー大公開
by
Yahoo!デベロッパーネットワーク
PDF
PostgreSQLの行レベルセキュリティと SpringAOPでマルチテナントの ユーザー間情報漏洩を防止する (JJUG CCC 2021 Spring)
by
Koichiro Matsuoka
PDF
Docker Compose 徹底解説
by
Masahito Zembutsu
PPTX
MongoDBが遅いときの切り分け方法
by
Tetsutaro Watanabe
PDF
Dockerfileを改善するためのBest Practice 2019年版
by
Masahito Zembutsu
PDF
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
by
Amazon Web Services Japan
PPTX
コンテナネットワーキング(CNI)最前線
by
Motonori Shindo
PPTX
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
by
NTT DATA Technology & Innovation
PDF
例外設計における大罪
by
Takuto Wada
PPTX
トランザクションの設計と進化
by
Kumazaki Hiroki
PDF
マイクロにしすぎた結果がこれだよ!
by
mosa siru
PDF
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)
by
NTT DATA Technology & Innovation
PPTX
BuildKitによる高速でセキュアなイメージビルド
by
Akihiro Suda
TLS, HTTP/2演習
by
shigeki_ohtsu
AWSで作る分析基盤
by
Yu Otsubo
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
by
NTT DATA Technology & Innovation
Infrastructure as Code (IaC) 談義 2022
by
Amazon Web Services Japan
Google Cloud で実践する SRE
by
Google Cloud Platform - Japan
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
by
NTT DATA Technology & Innovation
アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...
by
Google Cloud Platform - Japan
ヤフー社内でやってるMySQLチューニングセミナー大公開
by
Yahoo!デベロッパーネットワーク
PostgreSQLの行レベルセキュリティと SpringAOPでマルチテナントの ユーザー間情報漏洩を防止する (JJUG CCC 2021 Spring)
by
Koichiro Matsuoka
Docker Compose 徹底解説
by
Masahito Zembutsu
MongoDBが遅いときの切り分け方法
by
Tetsutaro Watanabe
Dockerfileを改善するためのBest Practice 2019年版
by
Masahito Zembutsu
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
by
Amazon Web Services Japan
コンテナネットワーキング(CNI)最前線
by
Motonori Shindo
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
by
NTT DATA Technology & Innovation
例外設計における大罪
by
Takuto Wada
トランザクションの設計と進化
by
Kumazaki Hiroki
マイクロにしすぎた結果がこれだよ!
by
mosa siru
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)
by
NTT DATA Technology & Innovation
BuildKitによる高速でセキュアなイメージビルド
by
Akihiro Suda
More from NTT DATA Technology & Innovation
PDF
強化されたEKSのオブザーバビリティ(AWS re:Invent 2025 re:cap LT 大会 発表資料)
by
NTT DATA Technology & Innovation
PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
by
NTT DATA Technology & Innovation
PDF
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
by
NTT DATA Technology & Innovation
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
by
NTT DATA Technology & Innovation
PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
by
NTT DATA Technology & Innovation
PDF
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
by
NTT DATA Technology & Innovation
PDF
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
by
NTT DATA Technology & Innovation
PDF
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
by
NTT DATA Technology & Innovation
PDF
2025年現在のNewSQL (最強DB講義 #36 発表資料)
by
NTT DATA Technology & Innovation
PDF
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
by
NTT DATA Technology & Innovation
PDF
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
by
NTT DATA Technology & Innovation
PDF
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PDF
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
by
NTT DATA Technology & Innovation
PDF
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
by
NTT DATA Technology & Innovation
PDF
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
by
NTT DATA Technology & Innovation
PDF
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PDF
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PDF
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
by
NTT DATA Technology & Innovation
PDF
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PDF
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
by
NTT DATA Technology & Innovation
強化されたEKSのオブザーバビリティ(AWS re:Invent 2025 re:cap LT 大会 発表資料)
by
NTT DATA Technology & Innovation
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
by
NTT DATA Technology & Innovation
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
by
NTT DATA Technology & Innovation
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
by
NTT DATA Technology & Innovation
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
by
NTT DATA Technology & Innovation
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
by
NTT DATA Technology & Innovation
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
by
NTT DATA Technology & Innovation
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
by
NTT DATA Technology & Innovation
2025年現在のNewSQL (最強DB講義 #36 発表資料)
by
NTT DATA Technology & Innovation
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
by
NTT DATA Technology & Innovation
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
by
NTT DATA Technology & Innovation
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
by
NTT DATA Technology & Innovation
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
by
NTT DATA Technology & Innovation
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
by
NTT DATA Technology & Innovation
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
by
NTT DATA Technology & Innovation
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
by
NTT DATA Technology & Innovation
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
1.
- 2022/05/11 - NTT
DATA - Keisuke SAKASAI @k6s4i53rx ©︎ 2022 NTT DATA Corporation Oracle Cloud Hangout Cafe #5 LT: その Pod 突然落ちても大丈夫ですか
2.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation Who am I - 2022/05/11 Oracle Cloud Hangout Cafe - 逆 井 啓 佑 さかさ い ©︎ 2022 NTT DATA Corporation Company: - NTT DATA Corporation Work: - 決済システムの Product Owner と 非機能 Test (約半年間) - Kubernetes を始めとするモダンな技術スタック... Description: - 先日、業務内の GKE Upgrade 時に勉強した、 「Pod の正常終了」について 簡単にまとめて、LT しようと思います。 k8s 超基本!! なお話になります... が大事なTopicです 逆 井 啓 佑
3.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation 商用環境でバンバン Request が飛んできている Pod、 突然、落ちても大丈夫ですか?? Introdaction
4.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation 「突然」とは言わないまでも... 例えば、GKE Upgrade の際には、Pod を落とす 場合もあります。※ Upgrade 戦略による Introdaction Old New ❶ 新 Node 作成 ❷ 新 Node に Pod 作成 ❸ 旧 Node の Pod 落とす ❹ 旧 Node 削除
5.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation 「突然」とは言わないまでも... 例えば、GKE Upgrade の際には、Pod を落とす 場合もあります。※ Upgrade 戦略による Introdaction Old New ❶ 新 Node 作成 ❷ 新 Node に Pod 作成 ❸ 旧 Node の Pod 落とす ❹ 旧 Node 削除 落とした Pod が決済リクエストを処理中だった場合、 そのリクエストはどうなるのか?正常に決済は終了できるのか? 上記ついて、「Pod が落ちる」を踏み込んで理解することで考えます。
6.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation Pod が落ちる Pod が落ちる際の挙動 Pod の Shutdown プロセス実行 ❶ Service から Pod への ルーティング削除 ReplicaSet や Deployment 管理下からの除外 ❷ ❸ replicas=3 New!! これら3つの処理が、非同期に実行される。 ここで、❷ のルーティング削除 => ❶ の Shutdown プロセス実施といった 順序制御はない 。 preStop SIGTERM SIGKILL 削除開始 強制終了 .terminationGracePeriodSeconds デフォルト: 30 秒 preStop は 最期にコンテナで 実行される処理 Pod に .deletionTimestamp が設定
7.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation Pod が落ちる際の挙動 Pod Status Running Terminating Pod 削除開始 deletionTimestamp 設定 コンテナ 強制終了 (設定されていたら) preStop 処理 (preStop が終わったら) SIGTERM 処理 terminationGracePeriodSeconds 経過後 SIGKILL 処理 Service から Pod へのルーティングが除外 .terminationGracePeriodSeconds デフォルト: 30 秒 参考(神資料):アルパカでもわかる安全なPodの終了
8.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation Pod が落ちる際の挙動 Pod Status Running Terminating Pod 削除開始 deletionTimestamp 設定 コンテナ 強制終了 (設定されていたら) preStop 処理 (preStop が終わったら) SIGTERM 処理 terminationGracePeriodSeconds 経過後 SIGKILL 処理 Service から Pod へのルーティングが除外 .terminationGracePeriodSeconds デフォルト: 30 秒 preStop 処理が不適な場合、 SIGTERM 処理中に Pod に Request => Request エラーになり得る 仕掛かり中の Request がある状態で、 SIGTERM / SIGKILL 処理が走る 場合がある => Request エラーになり得る
9.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation Pod が落ちる際のアプローチ Pod Status Running Terminating Pod 削除開始 deletionTimestamp 設定 コンテナ 強制終了 ❶ preStop 処理 => Request を受け付けなく なるまで十分 sleep SIGTERM 処理 terminationGracePeriodSeconds 経過後 SIGKILL 処理 Service から Pod へのルーティングが除外 .terminationGracePeriodSeconds デフォルト: 30 秒 => 十分長く ❷ Request 処理中のプロセスは、 完了してから Shutdown する => Graceful Shutdown ❸ Request の処理が十分終わる terminationGracePeriodSeconds を設定し、 SIGKILL されないようにチューニング
10.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation Pod が落ちる際のアプローチ この対応により、基本的に Request エラーとならず、Pod を落とすことができる ■ Kubernetes 側の設定: ● 適切な時間 preStop 処理で sleep 設定する ● Pod が落ちる際に、仕掛かり中のリクエストが処理し切れる時間に、 terminationGracePeriodSeconds をチューニングする ■ Application 側の設定: ● SIGTERM を受領しても、 仕掛かり中のプロセスが完了してから、Shutdown するように実装 今回は、終了にフォーカスしていますが、 Pod の同時存在最低数を定義する、Pod Disruption Budget や、 Pod が Ready になってから Request を受け付ける、Rediness Probe もあります (基本) !
11.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation 最後に、展開として このような設定を、システムを構成する各 MS で行い、 商用影響なく Pod が落とすことができる(前述した戦略での GKE Update 等も乗り切れる) 必要がある。 => 大規模な場合、MS の数/新規追加される MS の数、 .またそれら開発チームも膨大となり、横並びでの確認/統制が課題となる。 .=> Chaos Mesh で無作為に Pod に擬似障害(=突然落とす)を起こし、設定漏れ/ミスを把握する Pod 障害 詳細は Main Session で !! => 自動的に 設定漏れを炙り出す仕組み が必要
12.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation DEMO の設定 10 秒間隔でランダムに Pod を落とす ❶ preStop 処理実装 ❷ preStop 処理未実装 HTTP Request apiVersion: apps/v1 kind: Deployment metadata: name: graceful labels: app: graceful spec: replicas: 3 selector: matchLabels: app: graceful template: metadata: labels: app: graceful spec: containers: - name: graceful lifecycle: preStop: exec: command: ["sh", "-c", "sleep 3"] preStop 処理を実装した Pod の Manifest ❶ preStop で 3 秒 sleep するため、ルーティング除外後に SIGTERM ❷ preStop がないため、SIGTERM 処理中にリクエストが来る可能性 => リクエストエラーとなり得る
13.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation DEMO 📹 https://drive.google.com/file/d/1igm4DHoiK7lm6PcfTUZSDhpIMRke8w7q/view?usp=sharing
14.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation 終わり ✔️ GKE Upgrade などで、 商用環境の Pod を落とさなければいけないユースケースがある ✔️ 適切な設定をすることで、Request 処理中の Pod でも エラーなく正常に落とすことができる。基本的な設定であるので忘れずに... ✔️ 設定漏れがないか横並びで確認するために、Chaos Mesh は有効かも 👀 !?
15.
- 2022/05/11 Oracle
Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation 記載されている会社名、商品名、 またはサービス名は、各社の商標登録または商標です。