20. 20
Availabilityの定義
メール配信基盤の例
(HTTPで受理したリクエストをバックエンドの別サービスで順次処理します。)
Google cloud storageの例: https://cloud.google.com/storage/sla
Azure Cosmos DBの例: https://azure.microsoft.com/ja-jp/support/legal/sla/cosmos-db
99.95% availability over a month.
Availability is calculated every 3 minutes period.
- HTTP endpoint available criteria
- 99.9 % success(HTTP status 200) for valid request .
- 95% response return within xx msec.
- Email delivery available criteria
- No email delivery failure
- Email delivery have to be finished with in xx minutes after request accepted.
50. 50
Feedback from trouble(Postmortem)
振り返りの質を⾼く維持するためには以下の項⽬について確認しています。
1. Trouble Summary
2. Service Impact
3. Time Line
4. Root Causes
5. Trigger
6. Resolution
7. Detection
8. Action item : Temporary, Permanent measurement
9. Lesson Learned : What went well, What went wrong, Where we got lucky
51. 51
Feedback from trouble(Postmortem)
Lesson Learnedからアクションアイテムを⾒つける
§ What went well
うまくいった対応が属⼈的なものかどうか確認します。他の⼈が対応
した場合でも同じようにうまくいくように施策をAction Itemに追加し
ます。
§ What went wrong
うまくいかなかった原因を議論して再発防⽌策をAction Itemに追加し
ます。
§ What we got lucky
実際には表⾯化しなかった問題でも将来顕在化するかもしれません。
将来にわって防⽌する⽅法を議論して発⽣防⽌策をAction Itemに追加
します。
52. 52
Feedback from trouble(Postmortem)
Lesson Learnedの例
§ What went well
§ 影響範囲を正確にレポートできた。
§ What went wrong
§ 監視が機能しておらずトラブルの報告(第⼀報)に時間がかかった。
§ What we got lucky
§ リカバリツールの実⾏時に対象を間違いそうになったが直前で気がついた。