SlideShare a Scribd company logo
Submit Search
Upload
実践 自動復旧
Report
gree_tech
gree_tech
Follow
•
1 like
•
956 views
1
of
18
実践 自動復旧
•
1 like
•
956 views
Download Now
Download to read offline
Report
Engineering
「グリー開発本部 Meetup #3 モニタリング」で発表された資料です。
Read more
gree_tech
gree_tech
Follow
Recommended
[SAPPORO CEDEC] サービスの効果を高めるグリー内製ツールの技術と紹介
gree_tech
4.7K views
•
72 slides
OSS強化学習向けゲーム環境の動向
gree_tech
2.7K views
•
54 slides
AWS re:invent振り返りServerlessでサーバコスト以外もいろいろ削減
gree_tech
739 views
•
18 slides
ネットワークエンジニアがWeb開発をやってみて思ったこと
gree_tech
1.4K views
•
29 slides
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
gree_tech
4.1K views
•
29 slides
アナザーエデンにおける非同期オートセーブを用いた通信待ちストレスのないゲーム体験の実現
gree_tech
18.8K views
•
62 slides
More Related Content
What's hot
Azure Stack Hybrid DevOpsデモンストレーション
Masahiko Ebisuda
2.3K views
•
25 slides
Keynote
gree_tech
1.1K views
•
26 slides
KubernetesでPHPを動かした話
gree_tech
2.1K views
•
25 slides
Datadog monitoring with HashiCorp
Masatomo Ito
428 views
•
44 slides
最近Preview公開されたAzure テストサービスを試してみた
Hiroyuki Mori
556 views
•
34 slides
これからのインフラエンジニアについて考えていること
gree_tech
9.7K views
•
24 slides
What's hot
(20)
Azure Stack Hybrid DevOpsデモンストレーション
Masahiko Ebisuda
•
2.3K views
Keynote
gree_tech
•
1.1K views
KubernetesでPHPを動かした話
gree_tech
•
2.1K views
Datadog monitoring with HashiCorp
Masatomo Ito
•
428 views
最近Preview公開されたAzure テストサービスを試してみた
Hiroyuki Mori
•
556 views
これからのインフラエンジニアについて考えていること
gree_tech
•
9.7K views
20190124_hccjp_recochoku_40m_pub
Dai Fujikawa
•
2K views
Azure Contract, Support, License ちょっと Dive
Yui Ashikaga
•
1.2K views
2021/09/25 JAZUG11周年記念LT大会 ~FSLogixのお話~
Dai Iwai
•
898 views
20210925_jazug_azure_what_to_do_first
TomoakiOno
•
15.9K views
DynamoDBを利用したKPI保存システム
gree_tech
•
4.1K views
大規模ライブ配信の苦労ポイント
gree_tech
•
1.5K views
実プロジェクトの経験から学ぶazureサービス適用パターン
Kuniteru Asami
•
3.7K views
Google Cloud Platformでソーシャルゲームを1本出してみた!
Hasegawa Yusuke
•
4.4K views
Hccjp PoC Introduction 2
YusukeImanaka
•
2.1K views
Global Azure Bootcamp 2019@Tokyo資料【ExpressRoute構築でハメられた】
Dai Iwai
•
1.7K views
OSS/linux on Azureの活用方法と勘所
Kuniteru Asami
•
1.7K views
CDP 勉強会 - Multiple Datacenter Deployment ガイダンス
Kuniteru Asami
•
1.4K views
ゲームインフラとGoogle Cloud Platformと酒!
Hasegawa Yusuke
•
1.4K views
REALITY低遅延モード配信を支えるリアルタイムサーバとデータパイプライン
gree_tech
•
2.7K views
Similar to 実践 自動復旧
Introduction to New CloudWatch Agent
Noritaka Sekiyama
1.1K views
•
26 slides
[AWSマイスターシリーズ]Amazon CloudWatch & Auto Scaling
Amazon Web Services Japan
33.8K views
•
57 slides
AWS運用自動化への第一歩
Trainocate Japan, Ltd.
5.6K views
•
32 slides
Eight meets AWS
Tetsuya Mase
6.8K views
•
52 slides
AWS運用管理のベストプラクティス hinemosクラウド管理オプションのご紹介
Hinemos
2.7K views
•
47 slides
【HinemosWorld2014】A1-4_クラウドコントロールの最強タッグ Hinemosジョブ管理機能×コマンドラインツール
Hinemos
3K views
•
48 slides
Similar to 実践 自動復旧
(20)
Introduction to New CloudWatch Agent
Noritaka Sekiyama
•
1.1K views
[AWSマイスターシリーズ]Amazon CloudWatch & Auto Scaling
Amazon Web Services Japan
•
33.8K views
AWS運用自動化への第一歩
Trainocate Japan, Ltd.
•
5.6K views
Eight meets AWS
Tetsuya Mase
•
6.8K views
AWS運用管理のベストプラクティス hinemosクラウド管理オプションのご紹介
Hinemos
•
2.7K views
【HinemosWorld2014】A1-4_クラウドコントロールの最強タッグ Hinemosジョブ管理機能×コマンドラインツール
Hinemos
•
3K views
クラウド環境でのセキュリティ監査自動化【DeNA TechCon 2020 ライブ配信】
DeNA
•
982 views
Aws st 20130617-auto_scaling
Makoto Uehara
•
9K views
【STAC2017】テスト自動化システム 成長記
友隆 浅黄
•
19.4K views
リクルートの利用事例から考える AWSの各サービスとセキュリティ
Recruit Technologies
•
5.1K views
20140924イグレックcioセミナーpublic
junkoy66
•
1.1K views
[AWSマイスターシリーズ] AWS SDK for Java / .NET
Amazon Web Services Japan
•
10.3K views
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
Amazon Web Services Japan
•
1.8K views
あなたの悩みを解決する、クラウド障害対応術
Aya Komuro
•
1.5K views
データ可視化とコスト管理 Slideshare
Yu Nishimura
•
2.9K views
[AWSマイスターシリーズ]Amazon Simple Workflow Service (SWF)
Amazon Web Services Japan
•
12.4K views
[CTO Night & Day 2019] CTO のためのセキュリティ for Seed ~ Mid Stage #ctonight
Amazon Web Services Japan
•
1.7K views
企業におけるSpring@日本springユーザー会20090624
Yusuke Suzuki
•
1.9K views
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
Takanori Suzuki
•
5.2K views
Ansible 入門 #01 (初心者向け)
Taro Hirose
•
6.2K views
More from gree_tech
アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜
gree_tech
724 views
•
36 slides
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介
gree_tech
224 views
•
13 slides
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表
gree_tech
1K views
•
18 slides
アプリ起動時間高速化 ~推測するな、計測せよ~
gree_tech
1.8K views
•
84 slides
長寿なゲーム事業におけるアプリビルドの効率化
gree_tech
347 views
•
116 slides
Cloud Spanner をより便利にする運用支援ツールの紹介
gree_tech
675 views
•
31 slides
More from gree_tech
(20)
アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜
gree_tech
•
724 views
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介
gree_tech
•
224 views
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表
gree_tech
•
1K views
アプリ起動時間高速化 ~推測するな、計測せよ~
gree_tech
•
1.8K views
長寿なゲーム事業におけるアプリビルドの効率化
gree_tech
•
347 views
Cloud Spanner をより便利にする運用支援ツールの紹介
gree_tech
•
675 views
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
gree_tech
•
594 views
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
gree_tech
•
626 views
海外展開と負荷試験
gree_tech
•
593 views
翻訳QAでのテスト自動化の取り組み
gree_tech
•
304 views
組み込み開発のテストとゲーム開発のテストの違い
gree_tech
•
569 views
サーバーフレームワークに潜んでる脆弱性検知ツール紹介
gree_tech
•
209 views
データエンジニアとアナリストチーム兼務になった件について
gree_tech
•
308 views
シェアドサービスとしてのデータテクノロジー
gree_tech
•
430 views
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
gree_tech
•
1K views
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
gree_tech
•
1.1K views
比較サイトの検索改善(SPA から SSR に変換)
gree_tech
•
689 views
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
gree_tech
•
2.8K views
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
gree_tech
•
394 views
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
gree_tech
•
750 views
Recently uploaded
MyBatisとMyBatis Generatorの話
tekuragari
140 views
•
19 slides
3Dプリンタでロボット作るよ#1_黎明編
Yoshihiro Shibata
14 views
•
7 slides
robotics42.pptx
Natsutani Minoru
68 views
•
18 slides
図解で理解するvetKD
ryoo toku
75 views
•
22 slides
【NSP】人材紹介事業_会社紹介資料.pptx
sotozumi
119 views
•
10 slides
AIで始めるRustプログラミング #SolDevHub
K Kinzal
19 views
•
25 slides
Recently uploaded
(6)
MyBatisとMyBatis Generatorの話
tekuragari
•
140 views
3Dプリンタでロボット作るよ#1_黎明編
Yoshihiro Shibata
•
14 views
robotics42.pptx
Natsutani Minoru
•
68 views
図解で理解するvetKD
ryoo toku
•
75 views
【NSP】人材紹介事業_会社紹介資料.pptx
sotozumi
•
119 views
AIで始めるRustプログラミング #SolDevHub
K Kinzal
•
19 views
実践 自動復旧
1.
Copyright © GREE,
Inc. All Rights Reserved.Copyright © GREE, Inc. All Rights Reserved. 実践 自動復旧 Hiroaki Kobayashi 2019-02-26
2.
Copyright © GREE,
Inc. All Rights Reserved. 小林 裕明 ● 所属: グリー株式会社 開発本部 インフラストラクチャ部 ● 業務: ● プロダクトリリース・運用支援 ● モニタリングシステム運用 自己紹介
3.
Copyright © GREE,
Inc. All Rights Reserved. よいアラートの仕組みを作る6つの方法 ● アラートにメールを使うのをやめよう ● 手順書を書こう ● 固定の閾値を決めることだけが方法ではない ● アラートを削除し、チューニングしよう ● メンテナンス期間を使おう ● まずは自動復旧を試そう <- !? 入門 監視 3章より
4.
Copyright © GREE,
Inc. All Rights Reserved. ● AWS環境の通知種別と配信基盤 ● 自動復旧を導入した話 ● 何から手を付けるか ● どうやって実装するか ● 導入 / 効果測定 / イテレーション ● 自動復旧との付き合い方 話すこと
5.
Copyright © GREE,
Inc. All Rights Reserved. ● critical ● 即時対応が必要 ● 通知先: PagerDuty, Slack, ... ● a.k.a: アラート, ページ ● warning ● 即時対応は不要 ● 通知先: Slack, ... ● a.k.a: (アラート), ロギング ● ticket ● 期日までに対応が必要 ● 通知先: Slack, JIRA 通知の種別
6.
Copyright © GREE,
Inc. All Rights Reserved. Architecture アラート配信基盤 Alert Yusura - distribute alerts - summarize alerts - fetch metadata Job
7.
Copyright © GREE,
Inc. All Rights Reserved. 対応手順書を書く ● 観測して明文化する ● このアラートは何を意味するのか ● サービス(SLO)への影響はあるか ● 何を確認すべきか ● どのような行動を取るべきか ● 法則が見えてくる ● 実はコマンド1発叩いているだけ ● 単純なアラートほど頻出する ● アラートにhookしてコマンド実行できれば良いのでは 何から手を付けるか
8.
Copyright © GREE,
Inc. All Rights Reserved. ● シンプルにする ● 単一インスタンスで完結させる ● オーケストレーションはしない ● サービスレベルを悪化させない ● SLOの範囲内で実施 ● サービスアウトされたインスタンスに実施 ● バッファを持ち欠損しない処理に実施 ● Fail Safeにする ● プロセス再起動するなら、プロセスチェックする ● しきい値であれば2重に設定する どうやって実装するか 方針
9.
Copyright © GREE,
Inc. All Rights Reserved. リソース管理のためのサービス ● コマンド実行に関係する機能 ● Run Command: タスク・コマンド実行 ● Automation: タスクのステップ実行 ● SSM Documents: タスク・コマンド群の定義 ● AWS APIでコマンド実行できる ● SNS -> Lambda -> SSM RunCommand ● CloudWatch Event -> SSM RunCommand AWS System Manager (SSM) $ aws ssm send-command --document-name "AWS-RunShellScript" --instance-ids i-123 --parameters '{"commands":["hostname"]}'
10.
Copyright © GREE,
Inc. All Rights Reserved. Architecture 実装 自動復旧 SQS Yusura Target SNS SSM 1. notify 3. notify 5. resolve Lambda
11.
Copyright © GREE,
Inc. All Rights Reserved. 実行宣言 / 結果報告
12.
Copyright © GREE,
Inc. All Rights Reserved. 設定イメージ { "SOME_ROLE:SOME_ALERT": { "commands": [ "PROC_CHECK --ignore-check FOO_PROCESS", "service FOO_PROCESS restart", "service FOO_PROCESS status" ] } }
13.
Copyright © GREE,
Inc. All Rights Reserved. ● 導入は慎重に行う ● 導入初期はアラートも飛ばして人が見守る ● 実績ができ次第アラートは無効にする (Warning化) ● アラートレポートで可視化・イテレートする ● 無効化・ルール見直し・自動復旧・恒久対応 導入 / 効果測定 / イテレーション
14.
Copyright © GREE,
Inc. All Rights Reserved. Architecture Alert Report Scheduled Search Webhook Connection Webhook Webhook
15.
Copyright © GREE,
Inc. All Rights Reserved. ● 自動復旧は恒久対応ではない ● あくまで一次対応の負担を下げるもの ● 根本原因は解決されていない ● 浮いた時間で恒久対応する ● 恒久対応は時間がかかる ● 担当者の工数確保 ● OSSのフィードバック、修正、リリース ● ミドルウェアのバージョンアップ ● アーキテクチャの再設計 ● オンコールが疲弊しないための自動復旧 ● 必要以上に依存しない 自動復旧との付き合い方
16.
Copyright © GREE,
Inc. All Rights Reserved. ● 手順書を書いてアルゴリズムを把握する ● 自動化できるかの指針になる ● アラート削減や恒久対応の際の指針になる ● SNS, Lambda, SSMがあればわりとなんとかなる ● 自動復旧は恒久対応ではないので使いすぎには注意 まとめ
17.
Copyright © GREE,
Inc. All Rights Reserved.Copyright © GREE, Inc. All Rights Reserved. インターネットを通じて、 世界をより良くする。
18.
Copyright © GREE,
Inc. All Rights Reserved.