SlideShare a Scribd company logo
1 of 58
俺たちのDiRT
June 26th, 2021
Yanagimoto Koichi & Yokoyama Tsukasa
Ecosystem Services Department
Rakuten Group, Inc.
2
Self Introduction
Vice manager
YokoyamaTsukasa
北海道生まれ北海道育ち
Agile Sapporoメンバー
3
イメージ図
職種
• Software Engineer
• SRE
• Project manager
• Product manager
@jikun1234 / @kyanagimoto
またはお近くの楽天社員まで
https://www.irasutoya.com/2016/02/blog-post_329.html
4
5
Rakuten Ecosystem: Digital and Diverse
ESD
1.5bn
Overall Businesses
6
俺たちのお気に入りショップ
7
From Yokoyama
https://www.rakuten.ne.jp/gold/wood-st/
 家の近所にある(札幌市南区)
 オーダーメイドテーブル中心
 品質も見た目もGood!
 お求め安いお値段で
 最初はティッシュケースから入るのがオススメ
https://www.rakuten.ne.jp/gold/wood-st/ 2021/06/20
8
From Yanagimoto
 刺身がうまい!
 先日届いたブリがすごい大きくて美味しかった!
 日向灘の魚が新鮮な状態で届く!
https://www.rakuten.ne.jp/gold/ukezeki-suisan/
https://www.rakuten.ne.jp/gold/ukezeki-suisan/ 2021/6/25
9
悩み
10
トラブル対応をもっと上手にやりたい
11
1. 属人化する
2. 引き継ぎが難しい
3. チームワークが難しい
4. あれやっておけばよかったが多い
トラブル対応の難しさ
12
1. 属人化する
2. 引き継ぎが難しい
3. チームワークが難しい
4. あれやっておけばよかったが多い
トラブル対応の難しさ
13
1. 属人化する
2. 引き継ぎが難しい
3. チームワークが難しい
4. あれやっておけばよかったが多い
トラブル対応の難しさ
14
1. 属人化する
2. 引き継ぎが難しい
3. チームワークが難しい
4. あれやっておけばよかったが多い
トラブル対応の難しさ
15
どうしよう?
Professional of emergency work
Photo by Yanagimoto Koichi
17
どうすれば消防士のように
緊急時にも、素早く的確に連携できるのか?
18
日頃からの訓練!!
19
DiRT?
20
• What happen?
• How big?
• User impact?
• Lost sales?
• Recoverd?
• How to recover?
• Need report?
…
DiRT = Disaster RecoveringTraining
ChaosEngineering
21
How to ChaosEngineering?
• Gremlin
• ChaosEngineering SaaS
• Very usuful
• Results shows w/ graph
• But…
• Just only 2 hosts limit
• Scinario limit
• Next price plan, 750$/month
22
Chaos Engineering w/ Litmus
• Litmus
• a toolset for ChaosEngineering.
• OSS
• But…
• Not just installing a client.
• Need to
• Install ServiceAccount
• Prepare ChaosEngine manifest
• Result w/ CLI
23
よし!やってみよう!
24
破壊神(SREチームリーダー)
エンジニア(入社3年目)
エンジニア(入社2年目)
エンジニア( エース) 連絡受け係(サブマネージャ)
開始前
25
破壊神(SREチームリーダー)
エンジニア(入社3年目)
エンジニア(入社2年目)
エンジニア( エース) 連絡受け係(サブマネージャ)
始めるぞーー!!
26
ROUND 1
Fight
27
破壊神@東京の自宅
エンジニア@東京オフィス
エンジニア@札幌の自宅
エンジニア@東京の自宅
連絡受け係@札幌の自宅
ドキドキ
いつでも
来いや
今日は
何がくる
んだろう
28
破壊神
エンジニア
エンジニア
エンジニア
連絡受け係
まずはNodeを
落としちゃえ〜
ポチっとな
29
エンジニア
エンジニア
エンジニア
連絡受け係
フッw
!?!?
!?!?
30
「出てますね」
「エラー出てるね」
「報告しますね」
「xx:xxに検知と」
メモメモ
31
「Prometheusで
見えますよ」
「ちょっと待って
リトライで成功していない?」
「リトライ結果って
Grafanaから見えますか?」
32
「確認します!」
33
「してそうですね」
「全部成功してる?」
「了解です。報告します!」
「xx:xxに確認完了と」
メモメモ…
34
トラブル報告ですが、結果的に影響はありませんでした。
13:15ごろProduct AのNode がダウンしましたが
リトライによりエラーは発生していません.
その後は安定しています。
はい、了解です
35
「お疲れ様ー」
「はいー」
「報告まで完了しました」
「xx:xxに報告完了と」
メモメモ…
36
破壊神
エンジニア
エンジニア
エンジニア
連絡受け係
ふー
いつでも
来いや
ふー
37
ROUND 2
Fight
38
破壊神
エンジニア
エンジニア
エンジニア
連絡受け係
次は通常の10倍
のアクセス送り
込むよ
ポチッとな
39
破壊神
エンジニア
エンジニア
エンジニア
連絡受け係
フッw
!?!?
!?!?
40
「すっごいアクセスきてません?」
「またエラー出てるね」
「そうですね」
「xx:xxに検知と」
メモメモ
41
「Podが一度大量に増えて
今は少し減ってます」
「HPA動いた?」
「それでも通常の
3倍以上のPodですね」
42
「とりあえずリトライも失敗している
ものが大量にあるので報告しましょう」
「なんでこれでエラー出たんだ?」
「HPA関係してますかね?
43
トラブル報告です、Product Aでエラーが発生しました。
リトライも全て失敗したものがあるためユーザ影響がでています。
継続しているの?
エラー数と割合は?
原因は? すぐ復旧できそう?
継続しています。
エラー数などはXXXさんが集計中です。
予期せぬ高アクセスがありHPAが起動し大量のPodが立ち上がりました。
それ自体問題ないのですが、大量のPodの一括起動に原因がある
可能性があります。
44
訓練は続いていく
45
Continuous Training and Kaizen
46
定期的に実施するためのスケジュール
毎月2回
SprintとSprintの合間の
水曜日に実施
Mon Tue Wed Thu Fri
Sprint1
Sprint2
Sprintの振り返りをして
DiRTとDiRTの振り返り。
DiRTで発覚した改善ポイントのうち
組み込めるものは次のSprintに組み込む
10:00 – 11:00 Sprint Retrospective
11:00 – 12:00 DiRT
12:00 – 12:30 DiRT Retrospective
13:00 – 13:30 Lunch
14:00 – 14:30 NonN(雑談会)
15:00 – 16:00 Sprint Planning
カレンダー
DiRT Dayの1日のスケジュール
47
Flow
Planning Execution Retrospective Kaizen
 意図した通りに自動復旧するか?
 自動復旧した場合でも検知できるか?
 同時に複数障害が起きても落ち着いて対応できるか?
 前回イマイチだった部分を改善できているか?
① 目的の検討、対象機能の検討
② 意図した通りの障害を起こせるか検証
③ 関係者の予定確保、ツールの設定、振り返りページの作成など 私がやってます
48
Flow
Planning Execution Retrospective Kaizen
破壊神の一撃→ 原因追求/復旧/影響調査/報告を同時並行で行う
時間の記録も行う
49
Flow
Planning Execution Retrospective Kaizen
各自で振り返り→持ち寄ってディスカッション
50
Flow
Planning Execution Retrospective Kaizen
• Dashboard
• Runbookの整備
• リトライ処理の調整
• 各種パラメータの見直し
• ログ内容の見直し
多種多様な改善
• 役割分担の決め方
• 影響の記録の方法
• 報告方法
• トラブル対応担当者同士の連携方法
51
参加者の声
DiRTは、
私に経験と自信と与えた。
障害対応を客観的に
見直す機会ができてよかった。
サービスの知識がほとんどない状態から
今ではエラー対応に参加できるようになった。
52
53
実施後に起きつつある変化
Skill
 監視や復旧に慣れることが出来てきている
 実際の緊急対応に参加出来るようになった
 トラブル対応スキルが向上した
Process
Product
 Observabilityを見直す、SPoFを探すことが習慣化
 メンバーによる主体的な改善が活発化
 チームの教育プロセスとしても有用
 障害に強くなってきている
 システムの見えない部分が減ってきている
 自動レポーティング機能が実装されてきている
54
人を増やす+人の組み合わせを増やす
次に目指すこと
プロダクトを増やす+プロダクトの組み合わせを増やす
トラブル対応が
誰でも出来る、誰とでも出来る
トラブル対応が
どのプロダクトにも出来る、同時障害でも出来る
✖
✖
55
ぜひご自分のチームでもやってみませんか?
57
Q1 Staging? Production?
Q2 Public Cloud? オンプレ?
Q3 本当に障害起こさないと駄目?フリでは駄目?
Q4 インフラコストはどれくらい?
Q5 どうやって上司の許可を取ろう?
Q6 どうやってチームを巻き込もう?
Appendix
58

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
 

Featured (20)

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 

俺たちのDiRT @Scrum Fest Osaka2021