SRE 讀書會
導讀 - 第 30 章
Slide by
第 30 章
透過嵌入 SRE 的方式幫助團隊
從維運超載中恢復
第 30 章
!!!
???
透過嵌入 SRE 的方式幫助團隊
從維運超載中恢復
透過嵌入 SRE 的方式幫助團隊
從維運超載中恢復
第 30 章
從團隊外部引入另一位資深的
SRE 作為顧問、Mentor
本章內容類似於某種
Mentor 指南
or Ops
Mode
SRE
Mode
Ops Mode
SRE Mode
SRE
理想的工作分配
SRE
50%
研發/改善
OPS
50%
傳統 Ops 工作/手動工作
當長期工作失衡的時候?
SRE Ops
Burnout
Game Over~
該如何解決此狀況?
你需要為團隊
嵌入另一位 SRE
這並非是為了增加人力
1+
而是為了引入新的觀點
嵌入 SRE 該做些什麼?
第一階段:了解狀況
了解團隊目前的
流程與工作習慣
了解團隊現況對於服務
未來發展之利與弊
scalability
例如:是否有健康的
工作習慣?
例如:工作自動化與簡
化的狀況如何?
確定最大的壓力來源
壓力會限制你的眼界
導致陷入 Ops Mode
Oooooops~
提醒:壓力與問題的大小
不一定是正相關!
找出癥結點
大多數會是全新的緊急狀況
也有一些常見的來源
知識代溝
某項 SRE 開發之功能日趨重要
對「未來解決方案」過度依賴
令人分心之無用警報
欠缺 SLI / SLO / SLA 的服務
「容量規劃」欠缺前瞻性
未能理解根本原因之「事後檢討」
對於關鍵元件的理解不足
第二階段:分享背景知識
不要指正過去的錯誤
建立優良的實踐典範
例如:建立一份優質的
事後檢討
說明修復根本問題,對於團隊
在時間層面能帶來的長遠影響
例如:整理緊急事件清
單,區分瑣事、非瑣事
藉此釐清壓力源,以及可以
被簡化與自動化之工作
第三階段:主導改變
保持團隊健康
是一個持續的過程
需要建立良好的心理模型
SRE
優先事項:制定 SLO
建立量化分析的依據,
是施行變革的基礎
獲取團隊的幫助
不要急著想改變人們的想法
要循序漸進的洗腦
利用團隊既有的成功案例
說明成功案例是如何
一勞永逸的解決問題
切記:你亦要親身參與
重複以上過程數次
鼓勵團隊撰寫文件
重點:解釋邏輯推理過程
面對反對意見,動之以理
面對反對意見,動之以理
提出引導性問題
小結
從技術、量化角度,
動之以理
提供「成功案例」
注重「邏輯推理」
重點:SRE 目標與原則
Ops
Mode
SRE
Mode
嵌入 SRE 結束之時,
撰寫一份結案報告
解釋一路以來的改善計畫
確保團隊會持續進行
繼續關注該團隊,
直到他們長大成人!

SRE 讀書會 - 導讀:第 30 章