SlideShare a Scribd company logo
1 of 23
Download to read offline
Copyright Drecom Co., Ltd. All Rights Reserved.
サービスのインシデントを解決するには
Copyright Drecom Co., Ltd. All Rights Reserved.
名前
• 平石陽介 a.k.a. hiracy(ひらしー)
所属
• SREインフラグループ
技術スタック
• AWS/GCP/ansible/terraform/ruby/python/golang
• IaS(Infrastructure as Code)大好きで自作したりも
趣味
• コーヒー焙煎、クラフトコーラ作成
• (そのうちそば打ちやりそう)
Copyright Drecom Co., Ltd. All Rights Reserved.
Copyright Drecom Co., Ltd. All Rights Reserved.
話すこと
• インシデントとは
• 監視のバッドパターン
• 何を監視すれば良いのか?
• どう通知すれば良いのか?
• どう改善すれば良いのか?
• まとめ
Copyright Drecom Co., Ltd. All Rights Reserved.
インシデントとは
ITIL Wiki#Incident Management より
インシデントは、ITサービスの計画外の中断または品質の低下
(サービス中断)として定義されます。
• ITILはITマネジメントの成功事例をまとめたガイドライン
• ISOのような厳密な規格に参考にされている
• インシデントは広義の障害・サービス品質劣化
• これを検知するために監視が必要
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 監視漏れ
• 多すぎるモニタリング・アラート
• 適切でないエスカレーション
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 監視漏れ
そもそも監視してないパターン。
いわゆる泥縄
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 多すぎるモニタリング・アラート
見ないモニタリング・アラートは見るべきものを見ない理
由となってしまう
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 適切でないエスカレーション
アラートに対処すべき人に届いていない
Copyright Drecom Co., Ltd. All Rights Reserved.
何を監視すれば良いのか
• ビジネスKPI
• SLI/SLO
• ユーザー提供価値
障害・サービス劣化することによりどのような影響が発
生するのかチームで相談
Copyright Drecom Co., Ltd. All Rights Reserved.
何を監視すれば良いのか
まずは利用者の目線で監視できる外形監視用
のエンドポイントを作る。
$ curl -s http://api.anyservice.com/any_process/ping | jq .
{
"message": "healthy",
"status": 200,
"response_time_milli_seconds": 10
}
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• ツール・SaaSに任せましょう
• 監視・モニタリング
• Mackerel
• Datadog
• NewRelic
• インシデント管理
• PagerDuty
• VictorOps
• splunk
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• 弊社事例(「ドリコム PagerDuty アラート管理」で検索)
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• PagerDutyのようなアラートを集約してくれるSaaSを利用
• 同じインシデントでアラートをまとめてくれる機能があると便利
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの
チャットグループに通知
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• エスカレーションする単位をチャットグループでまとめると便利
• メールは極力利用しない(見ないとノイズの温床になるので)
• 過去のインシデントはSaaSで管理する
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの
チャットグループに通知
3. サービス担当者がインシデントを確認、対応状況を追記していく、
対応が完了したらインシデントをクローズ
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• インシデントの状態と解決を通知し履歴を追えるようにする
(PagerDutyのようなSaaSはここが強い)
• 状態を追えるようにしていればインシデントの編集や解決は誰
でも良い
Copyright Drecom Co., Ltd. All Rights Reserved.
どう改善すれば良いのか?
• インシデントレビューしましょう
• 緊急対応とは別に毎朝昨日のアラートをチーム全員で
見る
• 不要なアラートの削除
• 予防策・自動化が必要なものの洗い出し
• 通知先(エスカレーション)の精査
• システム・サービスの理解
Copyright Drecom Co., Ltd. All Rights Reserved.
どう改善すれば良いのか?
ポストモーテムとインシデントレビュー
• ポストモーテムは実際にサービスに影響があったイン
シデントに対し再発防止に集中して対策する
• インシデントレビューは監視システムの最適化
Copyright Drecom Co., Ltd. All Rights Reserved.
まとめ
• 監視のバッドパターンを意識して監視設定しましょう
• 通知・インシデント管理にSaaSを使いましょう
• インシデントレビューして監視自体を改善しましょう
Copyright Drecom Co., Ltd. All Rights Reserved.
ご清聴ありがとうございました!

More Related Content

Similar to サービスのインシデントを解決するには.pdf

DeNAでのVertica運用
DeNAでのVertica運用DeNAでのVertica運用
DeNAでのVertica運用Shota Suzuki
 
Webアプリケーションは難しい
Webアプリケーションは難しいWebアプリケーションは難しい
Webアプリケーションは難しいTakafumi ONAKA
 
Riotでサーバレスにした話
Riotでサーバレスにした話Riotでサーバレスにした話
Riotでサーバレスにした話Hiroyuki Hara
 
20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料tmaxsoftjpn
 
CircleCIで悩んだことピックアップ
CircleCIで悩んだことピックアップCircleCIで悩んだことピックアップ
CircleCIで悩んだことピックアップTakeo Saga
 
ネットワークエンジニアがWeb開発をやってみて思ったこと
ネットワークエンジニアがWeb開発をやってみて思ったことネットワークエンジニアがWeb開発をやってみて思ったこと
ネットワークエンジニアがWeb開発をやってみて思ったことgree_tech
 
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOMAPI meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOMSORACOM,INC
 
アドテク案件入門講座
アドテク案件入門講座アドテク案件入門講座
アドテク案件入門講座伊藤 孝
 
AWSでのセキュリティ運用 ~ IAM,VPCその他
AWSでのセキュリティ運用 ~IAM,VPCその他AWSでのセキュリティ運用 ~IAM,VPCその他
AWSでのセキュリティ運用 ~ IAM,VPCその他Recruit Technologies
 
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例agileware_jp
 
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャシステム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャRecruit Technologies
 
NHNグループ合同勉強会 ライブドア片野
NHNグループ合同勉強会 ライブドア片野NHNグループ合同勉強会 ライブドア片野
NHNグループ合同勉強会 ライブドア片野livedoor
 
Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!Boss4434
 
技術選択とアーキテクトの役割
技術選択とアーキテクトの役割技術選択とアーキテクトの役割
技術選択とアーキテクトの役割Toru Yamaguchi
 
Engine Yard - 商用マルチクラウドPaaS
Engine Yard - 商用マルチクラウドPaaSEngine Yard - 商用マルチクラウドPaaS
Engine Yard - 商用マルチクラウドPaaSTakahiro Imanaka
 
GitLab で実現する Ansible コードの管理
GitLab で実現する Ansible コードの管理GitLab で実現する Ansible コードの管理
GitLab で実現する Ansible コードの管理裕貴 荒井
 
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏Yusuke Suzuki
 

Similar to サービスのインシデントを解決するには.pdf (20)

DeNAでのVertica運用
DeNAでのVertica運用DeNAでのVertica運用
DeNAでのVertica運用
 
Webアプリケーションは難しい
Webアプリケーションは難しいWebアプリケーションは難しい
Webアプリケーションは難しい
 
Riotでサーバレスにした話
Riotでサーバレスにした話Riotでサーバレスにした話
Riotでサーバレスにした話
 
Oracle設計
Oracle設計Oracle設計
Oracle設計
 
20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料
 
CircleCIで悩んだことピックアップ
CircleCIで悩んだことピックアップCircleCIで悩んだことピックアップ
CircleCIで悩んだことピックアップ
 
ネットワークエンジニアがWeb開発をやってみて思ったこと
ネットワークエンジニアがWeb開発をやってみて思ったことネットワークエンジニアがWeb開発をやってみて思ったこと
ネットワークエンジニアがWeb開発をやってみて思ったこと
 
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOMAPI meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
 
アドテク案件入門講座
アドテク案件入門講座アドテク案件入門講座
アドテク案件入門講座
 
AWSでのセキュリティ運用 ~ IAM,VPCその他
AWSでのセキュリティ運用 ~IAM,VPCその他AWSでのセキュリティ運用 ~IAM,VPCその他
AWSでのセキュリティ運用 ~ IAM,VPCその他
 
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例
 
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャシステム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
 
NHNグループ合同勉強会 ライブドア片野
NHNグループ合同勉強会 ライブドア片野NHNグループ合同勉強会 ライブドア片野
NHNグループ合同勉強会 ライブドア片野
 
Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!
 
Migartion to AWS
Migartion to AWSMigartion to AWS
Migartion to AWS
 
技術選択とアーキテクトの役割
技術選択とアーキテクトの役割技術選択とアーキテクトの役割
技術選択とアーキテクトの役割
 
Engine Yard - 商用マルチクラウドPaaS
Engine Yard - 商用マルチクラウドPaaSEngine Yard - 商用マルチクラウドPaaS
Engine Yard - 商用マルチクラウドPaaS
 
GitLab で実現する Ansible コードの管理
GitLab で実現する Ansible コードの管理GitLab で実現する Ansible コードの管理
GitLab で実現する Ansible コードの管理
 
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
 
YJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組みYJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組み
 

More from Drecom Co., Ltd.

コンテナで始める柔軟な AWS Lambda 生活
コンテナで始める柔軟な AWS Lambda 生活コンテナで始める柔軟な AWS Lambda 生活
コンテナで始める柔軟な AWS Lambda 生活Drecom Co., Ltd.
 
ドリコムサマージョブ報告 by 佐々木 誠治
ドリコムサマージョブ報告 by 佐々木 誠治ドリコムサマージョブ報告 by 佐々木 誠治
ドリコムサマージョブ報告 by 佐々木 誠治Drecom Co., Ltd.
 
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介Drecom Co., Ltd.
 
HTML5 ゲームフレームワーク開発について
HTML5 ゲームフレームワーク開発についてHTML5 ゲームフレームワーク開発について
HTML5 ゲームフレームワーク開発についてDrecom Co., Ltd.
 
「AROW」お披露目(導入編)
「AROW」お披露目(導入編)「AROW」お披露目(導入編)
「AROW」お披露目(導入編)Drecom Co., Ltd.
 
「AROW」お披露目(実用編)
「AROW」お披露目(実用編)「AROW」お披露目(実用編)
「AROW」お披露目(実用編)Drecom Co., Ltd.
 
AROW の紹介 〜概要編〜
AROW の紹介 〜概要編〜AROW の紹介 〜概要編〜
AROW の紹介 〜概要編〜Drecom Co., Ltd.
 
AROW の紹介 〜実践編〜
AROW の紹介 〜実践編〜AROW の紹介 〜実践編〜
AROW の紹介 〜実践編〜Drecom Co., Ltd.
 
rails-developers-meetup-day4
rails-developers-meetup-day4rails-developers-meetup-day4
rails-developers-meetup-day4Drecom Co., Ltd.
 
html5conf2018-sponsor-session
html5conf2018-sponsor-sessionhtml5conf2018-sponsor-session
html5conf2018-sponsor-sessionDrecom Co., Ltd.
 
DApps のユーザ認証に web3.eth.personal.sign を使おう!
DApps のユーザ認証に web3.eth.personal.sign を使おう!DApps のユーザ認証に web3.eth.personal.sign を使おう!
DApps のユーザ認証に web3.eth.personal.sign を使おう!Drecom Co., Ltd.
 
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法Drecom Co., Ltd.
 
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチLoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチDrecom Co., Ltd.
 
今月のレッツゴー陰陽師!
今月のレッツゴー陰陽師!今月のレッツゴー陰陽師!
今月のレッツゴー陰陽師!Drecom Co., Ltd.
 
位置情報を常に取得するのはつらいよ
位置情報を常に取得するのはつらいよ位置情報を常に取得するのはつらいよ
位置情報を常に取得するのはつらいよDrecom Co., Ltd.
 
カンバンと朝会とわたくし
カンバンと朝会とわたくしカンバンと朝会とわたくし
カンバンと朝会とわたくしDrecom Co., Ltd.
 
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介Drecom Co., Ltd.
 
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜Drecom Co., Ltd.
 
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…Drecom Co., Ltd.
 
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”Drecom Co., Ltd.
 

More from Drecom Co., Ltd. (20)

コンテナで始める柔軟な AWS Lambda 生活
コンテナで始める柔軟な AWS Lambda 生活コンテナで始める柔軟な AWS Lambda 生活
コンテナで始める柔軟な AWS Lambda 生活
 
ドリコムサマージョブ報告 by 佐々木 誠治
ドリコムサマージョブ報告 by 佐々木 誠治ドリコムサマージョブ報告 by 佐々木 誠治
ドリコムサマージョブ報告 by 佐々木 誠治
 
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
 
HTML5 ゲームフレームワーク開発について
HTML5 ゲームフレームワーク開発についてHTML5 ゲームフレームワーク開発について
HTML5 ゲームフレームワーク開発について
 
「AROW」お披露目(導入編)
「AROW」お披露目(導入編)「AROW」お披露目(導入編)
「AROW」お披露目(導入編)
 
「AROW」お披露目(実用編)
「AROW」お披露目(実用編)「AROW」お披露目(実用編)
「AROW」お披露目(実用編)
 
AROW の紹介 〜概要編〜
AROW の紹介 〜概要編〜AROW の紹介 〜概要編〜
AROW の紹介 〜概要編〜
 
AROW の紹介 〜実践編〜
AROW の紹介 〜実践編〜AROW の紹介 〜実践編〜
AROW の紹介 〜実践編〜
 
rails-developers-meetup-day4
rails-developers-meetup-day4rails-developers-meetup-day4
rails-developers-meetup-day4
 
html5conf2018-sponsor-session
html5conf2018-sponsor-sessionhtml5conf2018-sponsor-session
html5conf2018-sponsor-session
 
DApps のユーザ認証に web3.eth.personal.sign を使おう!
DApps のユーザ認証に web3.eth.personal.sign を使おう!DApps のユーザ認証に web3.eth.personal.sign を使おう!
DApps のユーザ認証に web3.eth.personal.sign を使おう!
 
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
 
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチLoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
 
今月のレッツゴー陰陽師!
今月のレッツゴー陰陽師!今月のレッツゴー陰陽師!
今月のレッツゴー陰陽師!
 
位置情報を常に取得するのはつらいよ
位置情報を常に取得するのはつらいよ位置情報を常に取得するのはつらいよ
位置情報を常に取得するのはつらいよ
 
カンバンと朝会とわたくし
カンバンと朝会とわたくしカンバンと朝会とわたくし
カンバンと朝会とわたくし
 
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
 
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
 
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
 
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Recently uploaded (8)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

サービスのインシデントを解決するには.pdf

  • 1. Copyright Drecom Co., Ltd. All Rights Reserved. サービスのインシデントを解決するには
  • 2. Copyright Drecom Co., Ltd. All Rights Reserved. 名前 • 平石陽介 a.k.a. hiracy(ひらしー) 所属 • SREインフラグループ 技術スタック • AWS/GCP/ansible/terraform/ruby/python/golang • IaS(Infrastructure as Code)大好きで自作したりも 趣味 • コーヒー焙煎、クラフトコーラ作成 • (そのうちそば打ちやりそう)
  • 3. Copyright Drecom Co., Ltd. All Rights Reserved.
  • 4. Copyright Drecom Co., Ltd. All Rights Reserved. 話すこと • インシデントとは • 監視のバッドパターン • 何を監視すれば良いのか? • どう通知すれば良いのか? • どう改善すれば良いのか? • まとめ
  • 5. Copyright Drecom Co., Ltd. All Rights Reserved. インシデントとは ITIL Wiki#Incident Management より インシデントは、ITサービスの計画外の中断または品質の低下 (サービス中断)として定義されます。 • ITILはITマネジメントの成功事例をまとめたガイドライン • ISOのような厳密な規格に参考にされている • インシデントは広義の障害・サービス品質劣化 • これを検知するために監視が必要
  • 6. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 監視漏れ • 多すぎるモニタリング・アラート • 適切でないエスカレーション
  • 7. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 監視漏れ そもそも監視してないパターン。 いわゆる泥縄
  • 8. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 多すぎるモニタリング・アラート 見ないモニタリング・アラートは見るべきものを見ない理 由となってしまう
  • 9. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 適切でないエスカレーション アラートに対処すべき人に届いていない
  • 10. Copyright Drecom Co., Ltd. All Rights Reserved. 何を監視すれば良いのか • ビジネスKPI • SLI/SLO • ユーザー提供価値 障害・サービス劣化することによりどのような影響が発 生するのかチームで相談
  • 11. Copyright Drecom Co., Ltd. All Rights Reserved. 何を監視すれば良いのか まずは利用者の目線で監視できる外形監視用 のエンドポイントを作る。 $ curl -s http://api.anyservice.com/any_process/ping | jq . { "message": "healthy", "status": 200, "response_time_milli_seconds": 10 }
  • 12. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • ツール・SaaSに任せましょう • 監視・モニタリング • Mackerel • Datadog • NewRelic • インシデント管理 • PagerDuty • VictorOps • splunk
  • 13. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • 弊社事例(「ドリコム PagerDuty アラート管理」で検索)
  • 14. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? 1. 監視ツールからアラートを発報
  • 15. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • PagerDutyのようなアラートを集約してくれるSaaSを利用 • 同じインシデントでアラートをまとめてくれる機能があると便利
  • 16. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? 1. 監視ツールからアラートを発報 2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの チャットグループに通知
  • 17. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • エスカレーションする単位をチャットグループでまとめると便利 • メールは極力利用しない(見ないとノイズの温床になるので) • 過去のインシデントはSaaSで管理する
  • 18. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? 1. 監視ツールからアラートを発報 2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの チャットグループに通知 3. サービス担当者がインシデントを確認、対応状況を追記していく、 対応が完了したらインシデントをクローズ
  • 19. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • インシデントの状態と解決を通知し履歴を追えるようにする (PagerDutyのようなSaaSはここが強い) • 状態を追えるようにしていればインシデントの編集や解決は誰 でも良い
  • 20. Copyright Drecom Co., Ltd. All Rights Reserved. どう改善すれば良いのか? • インシデントレビューしましょう • 緊急対応とは別に毎朝昨日のアラートをチーム全員で 見る • 不要なアラートの削除 • 予防策・自動化が必要なものの洗い出し • 通知先(エスカレーション)の精査 • システム・サービスの理解
  • 21. Copyright Drecom Co., Ltd. All Rights Reserved. どう改善すれば良いのか? ポストモーテムとインシデントレビュー • ポストモーテムは実際にサービスに影響があったイン シデントに対し再発防止に集中して対策する • インシデントレビューは監視システムの最適化
  • 22. Copyright Drecom Co., Ltd. All Rights Reserved. まとめ • 監視のバッドパターンを意識して監視設定しましょう • 通知・インシデント管理にSaaSを使いましょう • インシデントレビューして監視自体を改善しましょう
  • 23. Copyright Drecom Co., Ltd. All Rights Reserved. ご清聴ありがとうございました!