9. 2019/2/5 ch10_2
file:///C:/Users/works/Downloads/ch10_2.md.html 9/16
Action item Type Priority Owner
Tracking
bug
Audit all systems capable of turning live servers into paperweights (i.e.,
not just repairs and diskerase workflow).
investigate P1 sydneythree@ BUG1234
File bugs to track implementation of bad input rejection to all systems
identified in BUG1234.
prevent P1 sydneythree@ BUG1236
Disallow any single operation from affecting servers spanning
namespace/class boundaries.
mitigate P1 maxone@ BUG6789
Traffic admin server needs a safety check to not operate on more than
[value redacted] number of nodes.
mitigate P1 dylanfour@ BUG1237
Traffic admin server should ask to approve destructive work. prevent P0 logantwo@ BUG1238
MDB should reject operations that do not provide values for an
expected-present constraint.
prevent P0 louseven@ BUG1239
Action item Type Priority Owner
Tracking
bug
Ensure that serving from core does not overload egress network links. repair P2 rileysix@ BUG1240
Table 10-1. Prevention/risk education
Table 10-2. Emergency response
10. 2019/2/5 ch10_2
file:///C:/Users/works/Downloads/ch10_2.md.html 10/16
Action item Type Priority Owner
Tracking
bug
Ensure decom workflow problems are noted under [the link to our emergency
stop doc has been redacted] and [the link to our escalations contact page has
been redacted].
mitigate P2 logantwo@ BUG1241
Add a big-red-buttona disable approach to decom workflows. mitigate P0 maxone@ BUG1242
Action item Type Priority Owner
Tracking
bug
Monitoring target safety checks should not allow you to push a change that
cannot be rolled back.
mitigate P2 dylanfour@ BUG1243
Add an alert when more than [value redacted] % of our machines have been
taken away from us. Machines were taken from satellites at 16:38 while the
world started paging only at around 17:10.
detect P1 rileysix@ BUG1244
Action item Type Priority Owner Tracking bug
Use iPXE to use HTTPS to make reinstalls more reliable/faster. mitigat P2 dylanfour@ BUG1245
Table 10-3. Monitoring/alerting
Table 10-4. Satellite/edge provisioning
Table 10-5. Cleanup/miscellaneous
11. 2019/2/5 ch10_2
file:///C:/Users/works/Downloads/ch10_2.md.html 11/16
Action item Type Priority Owner
Tracking
bug
Action item Type Priority Owner
Tracking
bug
Review MDB-related code in our tools and bring the admin server backup to
unwedge turnups/turndowns.
repair P2 rileysix@ BUG1246
Schedule DiRT tests:
- Bring back satellite after diskerase.
- Do the same for YouTube CDN.
mitigate P2 louseven@ BUG1247
Admin server
フロントエンドのインフラの特権操作を⾃動化するためのRPCサーバー。
⾃動化サーバーは、PCRおよびクラスターのターンアップ/ターンダウンの実装に最も明確に関与している。
Autoreplacer
認証されていないサーバーをマシン間で移動するシステム。
これは、サービスがマシンの障害に直⾯しても実⾏され続けるようにしたり、
フォークリフトやコロの再構成をサポートするためにも使⽤されている。
Borg
タスクとマシンリソースを⼤規模に管理するように設計されたクラスタ管理システム。
Borgは、Borgセル内のすべてのマシンを所有し、利⽤可能なリソースを持つマシンにタスクを割り当てる
Decom
Glossary
15. 2019/2/5 ch10_2
file:///C:/Users/works/Downloads/ch10_2.md.html 15/16
Impact
このセクションではさまざまな観点から詳細を説明し、それがバランスのとれた客観的な内容にしている、
Root cause and trigger
このセクションではインシデントについて深く掘り下げ、根本的な原因とトリガーに到達している
Data-driven conclusions
提⽰されたすべての結論は、事実とデータに基づいていて、 結論に⾄るために使⽤されたデータはすべて⽂書からリンクされてい
る
Additional resources
さらに有⽤な情報をグラフの形で提⽰し、 グラフのおかげでシステムに慣れていない読者も⽂脈を得やすい。
事後、1週間も経たないうちに、ポストモーテムは記載され、回覧された。 情報が寄稿者のなかで新鮮なので、迅速なポストモーテム
は(それだけで)より正確になる傾向がある
障害の影響を受けた⼈々は、あなたが物事を管理しているという 説明とデモを期待しており、時間が⽴つほど、 彼らは想像の産物でよ
り多くのギャップを埋めてしまう。
えてして、あなたにとってプラスには働くことはない。
このインシデントは世界規模のものであり、複数のシステムに影響を及ぼした。 その結果、ポストモーテムでは⼤量のデータが記録さ
れ、その後解析された。
Lengthy data sources, such as chat transcripts and system logs, were abstracted, with the unedited versions linked from the main
document. チャット記録やシステムログなどのデータソースの⻑さそのものが、 ドキュメントをぼんやりとさせた。
全体的に⾒れば、ポストモーテムは冗⻑性と読みやすさのバランスが取れたものになっている
Promptness
Conciseness