Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
TS
Uploaded by
Takeo Sawada
PDF, PPTX
8,142 views
SLOのすすめ
SRE Meetup Tokyo にて発表 https://connpass.com/event/66219/
Engineering
◦
Read more
10
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 19
2
/ 19
Most read
3
/ 19
4
/ 19
5
/ 19
6
/ 19
7
/ 19
8
/ 19
9
/ 19
10
/ 19
11
/ 19
12
/ 19
13
/ 19
14
/ 19
15
/ 19
16
/ 19
17
/ 19
18
/ 19
19
/ 19
More Related Content
PDF
マルチテナント化で知っておきたいデータベースのこと
by
Amazon Web Services Japan
PDF
エラー・バジェットによるリスク管理 Managing risk with error budgets
by
Google Cloud Platform - Japan
PDF
AWS Black Belt Techシリーズ AWS IAM
by
Amazon Web Services Japan
PPTX
クラウドでも非機能要求グレードは必要だよね
by
YoshioSawada
PDF
Keycloak拡張入門
by
Hiroyuki Wada
PPTX
Redisの特徴と活用方法について
by
Yuji Otani
PDF
組み込み開発でのシステムテスト自動化の一つの考え方(STAC)
by
H Iseri
PDF
The Twelve-Factor Appで考えるAWSのサービス開発
by
Amazon Web Services Japan
マルチテナント化で知っておきたいデータベースのこと
by
Amazon Web Services Japan
エラー・バジェットによるリスク管理 Managing risk with error budgets
by
Google Cloud Platform - Japan
AWS Black Belt Techシリーズ AWS IAM
by
Amazon Web Services Japan
クラウドでも非機能要求グレードは必要だよね
by
YoshioSawada
Keycloak拡張入門
by
Hiroyuki Wada
Redisの特徴と活用方法について
by
Yuji Otani
組み込み開発でのシステムテスト自動化の一つの考え方(STAC)
by
H Iseri
The Twelve-Factor Appで考えるAWSのサービス開発
by
Amazon Web Services Japan
What's hot
PPTX
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
by
NTT DATA Technology & Innovation
PDF
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
PDF
分散トレーシング技術について(Open tracingやjaeger)
by
NTT Communications Technology Development
PDF
Google Cloud で実践する SRE
by
Google Cloud Platform - Japan
PDF
AWS Black Belt Online Seminar 2016 AWS CloudFormation
by
Amazon Web Services Japan
PDF
ZabbixによるAWS監視のコツ
by
ShinsukeYokota
PDF
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
by
Amazon Web Services Japan
PDF
マイクロサービスに至る歴史とこれから - XP祭り2021
by
Yusuke Suzuki
PPTX
分散トレーシングAWS:X-Rayとの上手い付き合い方
by
Recruit Lifestyle Co., Ltd.
PDF
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
by
Amazon Web Services Japan
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
PPTX
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
by
NTT DATA Technology & Innovation
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
by
Amazon Web Services Japan
PDF
Monitoring - 入門監視
by
Eiji KOMINAMI
PDF
インフラエンジニアの綺麗で優しい手順書の書き方
by
Shohei Koyama
PDF
20200826 AWS Black Belt Online Seminar AWS CloudFormation
by
Amazon Web Services Japan
PPTX
Knative Eventing 入門(Kubernetes Novice Tokyo #11 発表資料)
by
NTT DATA Technology & Innovation
PDF
マルチテナントのアプリケーション実装〜実践編〜
by
Yoshiki Nakagawa
PDF
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
PDF
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
by
Amazon Web Services Japan
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
by
NTT DATA Technology & Innovation
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
分散トレーシング技術について(Open tracingやjaeger)
by
NTT Communications Technology Development
Google Cloud で実践する SRE
by
Google Cloud Platform - Japan
AWS Black Belt Online Seminar 2016 AWS CloudFormation
by
Amazon Web Services Japan
ZabbixによるAWS監視のコツ
by
ShinsukeYokota
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
by
Amazon Web Services Japan
マイクロサービスに至る歴史とこれから - XP祭り2021
by
Yusuke Suzuki
分散トレーシングAWS:X-Rayとの上手い付き合い方
by
Recruit Lifestyle Co., Ltd.
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
by
Amazon Web Services Japan
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
by
NTT DATA Technology & Innovation
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
by
Amazon Web Services Japan
Monitoring - 入門監視
by
Eiji KOMINAMI
インフラエンジニアの綺麗で優しい手順書の書き方
by
Shohei Koyama
20200826 AWS Black Belt Online Seminar AWS CloudFormation
by
Amazon Web Services Japan
Knative Eventing 入門(Kubernetes Novice Tokyo #11 発表資料)
by
NTT DATA Technology & Innovation
マルチテナントのアプリケーション実装〜実践編〜
by
Yoshiki Nakagawa
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
by
Amazon Web Services Japan
Viewers also liked
PDF
AWS X-Rayによるアプリケーションの分析とデバッグ
by
Amazon Web Services Japan
PDF
Spiderストレージエンジンの使い方と利用事例 他ストレージエンジンの紹介
by
Kentoku
PDF
An introduction and future of Ruby coverage library
by
mametter
PDF
Blockchain on Go
by
Seiji Takahashi
PPTX
ScalaからGoへ
by
James Neve
PPTX
AndApp開発における全て #denatechcon
by
DeNA
PDF
golang.tokyo #6 (in Japanese)
by
Yuichi Murata
PDF
神に近づくx/net/context (Finding God with x/net/context)
by
guregu
PDF
Apache Spark Streaming + Kafka 0.10 with Joan Viladrosariera
by
Spark Summit
PPTX
MongoDBの可能性の話
by
Akihiro Kuwano
PDF
Microservices at Mercari
by
Google Cloud Platform - Japan
PDF
Swaggerでのapi開発よもやま話
by
KEISUKE KONISHI
PDF
Fast and Reliable Swift APIs with gRPC
by
Tim Burks
PDF
メルカリアッテの実務で使えた、GAE/Goの開発を効率的にする方法
by
Takuya Ueda
PPTX
Solving anything in VCL
by
Fastly
PDF
So You Wanna Go Fast?
by
Tyler Treat
PDF
Google Home and Google Assistant Workshop: Build your own serverless Action o...
by
Bret McGowen - NYC Google Developer Advocate
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
by
Tetsutaro Watanabe
PDF
Spark Streaming Programming Techniques You Should Know with Gerard Maas
by
Spark Summit
PDF
「サーバレスの薄い本」からの1年 #serverlesstokyo
by
Masahiro NAKAYAMA
AWS X-Rayによるアプリケーションの分析とデバッグ
by
Amazon Web Services Japan
Spiderストレージエンジンの使い方と利用事例 他ストレージエンジンの紹介
by
Kentoku
An introduction and future of Ruby coverage library
by
mametter
Blockchain on Go
by
Seiji Takahashi
ScalaからGoへ
by
James Neve
AndApp開発における全て #denatechcon
by
DeNA
golang.tokyo #6 (in Japanese)
by
Yuichi Murata
神に近づくx/net/context (Finding God with x/net/context)
by
guregu
Apache Spark Streaming + Kafka 0.10 with Joan Viladrosariera
by
Spark Summit
MongoDBの可能性の話
by
Akihiro Kuwano
Microservices at Mercari
by
Google Cloud Platform - Japan
Swaggerでのapi開発よもやま話
by
KEISUKE KONISHI
Fast and Reliable Swift APIs with gRPC
by
Tim Burks
メルカリアッテの実務で使えた、GAE/Goの開発を効率的にする方法
by
Takuya Ueda
Solving anything in VCL
by
Fastly
So You Wanna Go Fast?
by
Tyler Treat
Google Home and Google Assistant Workshop: Build your own serverless Action o...
by
Bret McGowen - NYC Google Developer Advocate
リクルートを支える横断データ基盤と機械学習の適用事例
by
Tetsutaro Watanabe
Spark Streaming Programming Techniques You Should Know with Gerard Maas
by
Spark Summit
「サーバレスの薄い本」からの1年 #serverlesstokyo
by
Masahiro NAKAYAMA
Recently uploaded
PDF
0.0001秒の攻防!?快適な運転を支えるリアルタイム制御と組み込みエンジニアの実践知【DENSO Tech Night 第四夜】
by
dots.
PPTX
【ASW22-01】STAMP:STPAロスシナリオの発想・整理支援ツールの開発 ~astah* System Safetyによる構造化・階層化機能の実装...
by
csgy24013
PPTX
「グローバルワン全員経営」の実践を通じて進化し続けるファーストリテイリングのアーキテクチャ
by
Fast Retailing Co., Ltd.
PDF
Kubernetes Release Team Release Signal Role について ~Kubernetes Meetup Tokyo #72~
by
Keisuke Ishigami
PDF
Rin Ukai_即興旅行の誘発を目的とした口コミ情報に基づく雰囲気キーワード_EC2025.pdf
by
Matsushita Laboratory
PDF
サーバーサイド Kotlin を社内で普及させてみた - Server-Side Kotlin Night 2025
by
Hirotaka Kawata
PDF
Nanami Doikawa_寄り道の誘発を目的とした旅行写真からのスポット印象語彙の推定に関する基礎検討_EC2025
by
Matsushita Laboratory
0.0001秒の攻防!?快適な運転を支えるリアルタイム制御と組み込みエンジニアの実践知【DENSO Tech Night 第四夜】
by
dots.
【ASW22-01】STAMP:STPAロスシナリオの発想・整理支援ツールの開発 ~astah* System Safetyによる構造化・階層化機能の実装...
by
csgy24013
「グローバルワン全員経営」の実践を通じて進化し続けるファーストリテイリングのアーキテクチャ
by
Fast Retailing Co., Ltd.
Kubernetes Release Team Release Signal Role について ~Kubernetes Meetup Tokyo #72~
by
Keisuke Ishigami
Rin Ukai_即興旅行の誘発を目的とした口コミ情報に基づく雰囲気キーワード_EC2025.pdf
by
Matsushita Laboratory
サーバーサイド Kotlin を社内で普及させてみた - Server-Side Kotlin Night 2025
by
Hirotaka Kawata
Nanami Doikawa_寄り道の誘発を目的とした旅行写真からのスポット印象語彙の推定に関する基礎検討_EC2025
by
Matsushita Laboratory
SLOのすすめ
1.
SLO のすすめ Takeo Sawada Dropbox,
Inc. September 25, 2017
2.
自己紹介 名前 澤田 武男 Twitter
@SawadaTakeo 2013 - 2014 Ads Backend SRE @Google HQ Display Ads Backend など 2014 - 2017 Source SRE @ Google NY Piper (Google のプロプライエタリなソースコン トロールシステム) Git (Android, Chrome, code.google.com, Cloud Source Repositories) ローンチ調整エンジニア (LCE, SRE 本 27 章) SLO の策定、モニタリング、障害対応、 PRR(SRE 本 32 章) など 2017 - Build SRE @ Dropbox Changes (内製の CI ツール) Bazel クラスタ
4.
今日の話題 SRE 本第 II
部 原則 から 4 章: 「サービスレベル目標」 外部に直接面していないような サービスでもサービスレベル目 標を有効に使ってほしい 5 章: 「トイルの撲滅」
5.
サービスレベル目標
6.
サービスレベル目標とは何か 用語: SLI vs
SLO vs SLA SLI - Service Level Indicator: 指標 例: リクエストの成功率 SLO - Service Level Objective: 目標 例: 各四半期中の全リクエストの成功率は 99.9%以上です。 SLA - Service Level Agreement: 合意 例: SLO が満たされなかった場合、利用料の 50%を返金します。 サービスレベル目標: あるサービスの信頼性についての数値目標
7.
SLO を定義するメリット どのくらいの信頼性を目指すのかをはっきりさせる コストや開発速度とのトレードオフをしっかりと議論する機 会になる SLO によってサービスのアーキテクチャ、チーム体制、モニ タリングの感度、障害対応などが変わってくる 「高い信頼性」という曖昧な目標から、チームメンバーが共 有する
1 つの数値目標へ エラーバジェットでトレードオフのバランスを取る (SRE 本 3 章) 過剰な要求からチームを守る あらかじめステークホルダーに SLO を共有し合意しておく 達成困難な信頼性目標を要求された時に参照できる 過剰に依存されるのを避ける ユーザに対してあらかじめ「期待できる信頼性」を示しておく 自サービスより高い信頼性が求められるサービスに不適切に 組み込まれるのを避ける
8.
SLO の定義のしかた 1. SLI
にするメトリクスを決める 2. 目標を決める 3. Profit!!! サービス、ユーザ、チームなどによるので「正しいやり方」は無い
9.
SLI の選びかた ユーザ体験の満足度への近さ モニタリングの容易さ 安定して収集し分析できるメトリクス シンプルさ SLI はできるだけ少なくする さまざまなカテゴリ 可用性
(Availability) レイテンシー (Latency) 耐久性 (Durability) スループット (Throughput) まずは可用性から始めてみよう
10.
SLI をモニターする ユーザートラフィックを直接計測する エラーの分類:リクエストが失敗した原因がユーザにあるか サービス側にあるかを正しく分類する 全てのリクエストを SLO
でカバーすべきか考える (リクエス トの種類、サイズなど) トラフィックパターンに影響を受けやすい プローブ用のトラフィックを生成し計測する (ブラックボッ クスモニタリング) ユーザ環境に近い地点で計測できる 全てのコードパス、リクエストパスを検査するのは大変 ref. SRE 本 6 章 「分散システムのモニタリング」
11.
SLO の定義の色々 例えば “99.9%の
Uptime” と言っても... ある期間中の全てのリクエストとエラーを集計したエラー率 が 0.1%以下 ある期間を数分のウィンドウ単位に分割し、99.9%以上の ウィンドウでエラー率が x% 以下 ある期間を数分のウィンドウ単位に分割し、各ウィンドウの エラー率を平均したものが 0.1% 以下 Amazon S3, Google Cloud Storage などがこの形式 サービスの特性、ユーザの期待などに合わせて適切な定義を選ぶ
12.
SLO が達成できなかったら? リリースをフリーズ 障害の多くは変更に付随して発生する 信頼性に関する改善の優先順位を上げる 目標そのものを見直す ref. SRE
本 3 章 3.4 エラーバジェットの活用
13.
Public SLA へ 外部に公開する
SLA はプロダクトデザインレベルの選択に なる SRE が技術的な判断や情報を提供しつつ、開発者、PM と議 論する
14.
トイルの撲滅 ref. SRE本5章
15.
トイルとは何か プロダクションサービスを動作させることに関係する作 業で、 手作業で繰り返し行われ、 自動化することが可能であり、 戦術的な価値を持たず、 作業量がサービスの成長に比例する
16.
トイルの例 リリース作業 手作業でのテスト バックアップ作業 データベースのクリーンアップなど VM のセットアップ、追加、削除など アラート、障害対応 0 にするのは難しいものもある
17.
トイルが多すぎると SRE のポジションのキャリア上の魅力が減る 採用が難しくなる SWE への転出 生産性の低下 手作業によるミスの発生 Google
では 50%を目標にしている。 ref. SRE 本 5 章 5.4 トイルは常に悪なのか?
18.
トイルの削減: オンコール対応の例 行っている作業を見直し、地道に自動化、改善していくしかない 週に数十以上のページ (アラート)
が発生して多大なオンコー ル対応負荷が生じていた (SRE 本 11 章 11.3 バランスの取れ たオンコール) 対応 毎週プロダクションミーティングを開催 (SRE 本 31 章 31.1) その週におきた全てのアラートとその対応をレビュー 重大な障害にはポストモーテムを書き、その後ポストモーテ ムレビューを実施 (SRE 本 15 章) 場当たり的な修正に変えて 根本的な原因の修正。時間のかかるものはプロジェクト化 他チームのバグの積極的な修正依頼 プレイブック (手順書) の強化 不要なアラートの見直し 数ヶ月の取り組みでページ頻度が 1/5 程度に
19.
ありがとうございました。 ご質問、ご感想は Twitter @SawadaTakeo までお気軽に!
Download