Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

SRE 讀書會 - 導讀:第 31 章

564 views

Published on

於 2018/05/10 - SRE 讀書會協助導讀《Site Reliability Engineering》第 31 章。

Published in: Technology
  • Be the first to comment

SRE 讀書會 - 導讀:第 31 章

  1. 1. 《SRE》第 31 章 Cheng Wei Chen @ SRE 讀書會 2018.5.10 導讀
  2. 2. SRE 具備特殊的組織地位
  3. 3. SRE 注重「務實」, 而具備「靈活性」
  4. 4. 工作及作業模式 ‧ 具有巨大的多樣性 ‧ 包含 infra、service、product ‧ 與大小規模不同之產品開發團隊協 同合作 ‧ 甚至 SRE 本身即是研發團隊
  5. 5. 工作及作業模式 ‧ SRE 具備多重能力 ‧ 系統工程與架構能力 ‧ 軟體工程技術 ‧ 專案管理能力 ‧ 領導能力、各種產業背景知識
  6. 6. SRE 並非單純僅是「支援」 或「研發」的團隊
  7. 7. 而是面向服務, 獨立的支持系統
  8. 8. SRE 的承諾 ‧ 專門負責「可靠性」 ‧ 擁有產品開發團隊之技能 ‧ 以量化的方式持續改善
  9. 9. 溝通與協作是 SRE 工作 中非常重要的維度
  10. 10. SRE 的協同合作 ‧ 奠基於 ‧ 軟體工程技能 ‧ 系統工程的專業知識 ‧ Production 經驗 ‧ 文化、相互尊重
  11. 11. SRE 的協同合作 ‧ 奠基於 ‧ 軟體工程技能 ‧ 系統工程的專業知識 ‧ Production 經驗 ‧ 文化、相互尊重 最佳 設計與實作 的溫床
  12. 12. Production Meeting ‧ 目標: ‧ 讓參與者針對服務的狀態,達成 一致的共識。 ‧ 獲取知識->改善服務
  13. 13. Production Meeting ‧ 頻率與時間: ‧ 每週一次 ‧ 30 ~ 60 分鐘
  14. 14. Production Meeting ‧ 會議主席: ‧ 輪流擔任 ‧ 由規模較小的團隊中選擇 ‧ 有助提升參與感、個人主持能力
  15. 15. Production Meeting ‧ 議程:(舉例) ‧ Upcoming production changes ‧ Metrics ‧ Outages
  16. 16. Production Meeting ‧ 出席人員 ‧ SRE 團隊所有成員 ‧ 產品負責人 ‧ 具合作關係之開發團隊 ‧ 利害關係人
  17. 17. SRE 的內部協作 ‧ SRE 團隊特性 ‧ 需要負責緊急應變與 on-call ‧ 分散式、跨時區團隊 ‧ 大小不同規模 ‧ 實體及虛擬團隊
  18. 18. SRE 的內部協作 ‧ SRE 團隊組成 ‧ 系統工程與軟體工程 ‧ 組織能力與管理能力 ‧ 其他……
  19. 19. SRE 的內部協作 ‧ SRE 團隊組成 ‧ 為了掌握先進技術 ‧ 形成多樣性、專業化的多重組合 ‧ 避免認知偏差
  20. 20. SRE 的內部協作 ‧ SRE 團隊組成 ‧ 技術長 TL,tech lead ‧ SRE 經理 ‧ 專案經理 PM、TPM、PGM
  21. 21. SRE 的內部協作 ‧ 高效工作的技巧 ‧ 基本上市面上常見技巧,也同能 適用於 SRE 團隊 ‧ 良好的溝通技巧 ‧ 人與人的信賴關係
  22. 22. 協作案例:Viceroy ‧ 案例背景 ‧ SRE 的組織架構導致經常產出 多種相同目的、類似的專案 ‧ 監控儀表板即是其一
  23. 23. 協作案例:Viceroy ‧ 案例背景 Borgmon ‧ 舊有的監控系統 ‧ 過時、難用、不符合任何標準、 充滿限制、難以測試。
  24. 24. 協作案例:Viceroy ‧ 案例背景 Monarch ‧ 多數團隊考慮使用 ‧ 但針對複雜的監控儀表板之應用情境擴展能力 不佳。 ‧ 不支援過去的模板,提高移轉難度 ‧ 當時欠缺可行的部署方案,導致更多產生重複 的專案。
  25. 25. 協作案例:Viceroy ‧ 案例分析 ‧ 欠缺溝通、跨團隊專案追蹤和協 調能力 ‧ 導致閉門造車、重複的勞動
  26. 26. 協作案例:Viceroy ‧ 案例背景 Viceory ‧ 跨團隊聯合打造一個所有 SRE 團隊通用的解決方案 ‧ 支援複雜、自訂的監控儀表板 ‧ 同時支援 Monarch、Borgmon
  27. 27. 協作案例:Viceroy ‧ 面臨的挑戰 ‧ 跨地域的團隊溝通 ‧ 書面和口語表達習慣的隱喻及暗示容 易被誤解 ‧ 跨區域成員容易錯過會議前後的即興 討論
  28. 28. 協作案例:Viceroy ‧ 面臨的挑戰 ‧ 核心團隊之外的貢獻者人員變動快速 ‧ 專案新人需要一定的培訓時間 ‧ 導致維護者離開後,欠缺維護之相關 功能可能會被丟棄
  29. 29. 協作案例:Viceroy ‧ 面臨的挑戰 ‧ 專案規模膨脹,導致交付困難 ‧ 也導致專案管理,確保專案目標 一致上的困難
  30. 30. 協作案例:Viceroy ‧ 建議 ‧ 非必要不應進行跨地域專案開發 ‧ 因為需要更多溝通成本,導致工 作進度較慢
  31. 31. 協作案例:Viceroy ‧ 建議 ‧ 但反之,如能克服溝通問題,跨地 域專案開發可以擁有更高的產能 ‧ 但反論,其實同地域團隊不代表就 不會產生溝通問題,因此皆需負擔 不同的溝通成本
  32. 32. 協作案例:Viceroy ‧ 建議 ‧ 慎選專案貢獻者 ‧ 確保貢獻者能夠投入的時間 ‧ 避免貢獻成果無人維護
  33. 33. 協作案例:Viceroy ‧ 建議 ‧ 慎選專案負責人 ‧ 是否能定睛於專案願景 ‧ 確保工作與願景相關 ‧ 設定正確的工作優先度
  34. 34. 協作案例:Viceroy ‧ 建議 ‧ 建立獲得普遍認同的決策方式 ‧ 建立認同感、信任感
  35. 35. 協作案例:Viceroy ‧ 建議 ‧ 針對跨地域專案,應該將專案分 割為許多小項目 ‧ 分配給各相同地域之小組開發 ‧ 減少溝通成本
  36. 36. 協作案例:Viceroy ‧ 建議 ‧ 續上 ‧ 設定明確的目標與期限 ‧ 注意康威定律的影響
  37. 37. 協作案例:Viceroy ‧ 建議 ‧ 遵守良好的軟體工程實踐 ‧ 文件化、標準化
  38. 38. 協作案例:Viceroy ‧ 建議 ‧ 持續溝通、交流 ‧ 保持適度的當面交流
  39. 39. SRE 與其他部門的協作 ‧ 建議 ‧ 最好在產品設計階段的早期 ‧ SRE 適合提供架構及軟體行為 層面的建議
  40. 40. SRE 與其他部門的協作 ‧ 協作 ‧ 追蹤新的設計 ‧ 提出建議 ‧ 協助實行建議 ‧ 直到正式部署為止
  41. 41. 協作案例:移轉DFP ‧ 案例背景 - 將 DFP 移轉至 F1 ‧ 既有服務之遷移 ‧ Mysql -> F1
  42. 42. 協作案例:移轉DFP ‧ 案例背景 - 將 DFP 移轉至 F1 ‧ 移轉過程複雜 ‧ 技術差異 ‧ 資料表結構差異 ‧ 必須即時移轉,不能中斷服務
  43. 43. 協作案例:移轉DFP ‧ 案例背景 - 將 DFP 移轉至 F1 ‧ 開發團隊熟悉軟體之業務邏輯 ‧ SRE團隊熟悉 infra
  44. 44. 協作案例:移轉DFP ‧ 案例說明 ‧ 從一開始就計劃緊密合作 ‧ 開發與SRE進行每週例會
  45. 45. 協作案例:移轉DFP ‧ 案例說明 ‧ 業務邏輯仰賴 infra ‧ 因此專案由 SRE 主導,從新的 infra 設計開始 ‧ SRE 撰寫 infra 設計文件
  46. 46. 協作案例:移轉DFP ‧ 案例說明 ‧ 開發、SRE 共同審查 infra 設計 ‧ 配合 infra 設計,調整業務邏輯 ‧ 即早定義 infra 與業務邏輯之間 的介面
  47. 47. 協作案例:移轉DFP ‧ 案例說明 ‧ SRE 建立類正式環境進行測試、驗 證 ‧ SRE 建立正式環境,設置所需資源、 監控規則、培訓on-call工程師、基 本的發行流程
  48. 48. 小結 ‧ 有效溝通 ‧ 建立解決問題的通用方法 ‧ 集結眾人之力解決更困難的問題
  49. 49. Thanks Cheng Wei Chen @ SRE 讀書會 2018.5.10

×