Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Ryuji Tamagawa
PPTX, PDF
5,345 views
hbstudy 74 Site Reliability Engineering
hbstudy #74 https://hbstudy.connpass.com/event/61687/ で話をさせていただいた、SREに関するスライドです。
Technology
◦
Read more
18
Save
Share
Embed
Embed presentation
Download
Downloaded 50 times
1
/ 35
2
/ 35
3
/ 35
4
/ 35
5
/ 35
6
/ 35
7
/ 35
8
/ 35
9
/ 35
10
/ 35
11
/ 35
12
/ 35
13
/ 35
14
/ 35
15
/ 35
16
/ 35
17
/ 35
18
/ 35
19
/ 35
20
/ 35
21
/ 35
22
/ 35
23
/ 35
24
/ 35
25
/ 35
26
/ 35
27
/ 35
28
/ 35
29
/ 35
30
/ 35
31
/ 35
32
/ 35
33
/ 35
34
/ 35
35
/ 35
More Related Content
PDF
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
by
Amazon Web Services Japan
PDF
The Twelve-Factor Appで考えるAWSのサービス開発
by
Amazon Web Services Japan
PDF
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
by
Amazon Web Services Japan
PDF
Apache NiFi の紹介 #streamctjp
by
Yahoo!デベロッパーネットワーク
PDF
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
by
Amazon Web Services Japan
PPTX
Zabbix概論2018
by
真乙 九龍
PDF
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
by
Amazon Web Services Japan
PDF
AWSのログ管理ベストプラクティス
by
Akihiro Kuwano
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
by
Amazon Web Services Japan
The Twelve-Factor Appで考えるAWSのサービス開発
by
Amazon Web Services Japan
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
by
Amazon Web Services Japan
Apache NiFi の紹介 #streamctjp
by
Yahoo!デベロッパーネットワーク
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
by
Amazon Web Services Japan
Zabbix概論2018
by
真乙 九龍
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
by
Amazon Web Services Japan
AWSのログ管理ベストプラクティス
by
Akihiro Kuwano
What's hot
PDF
[236] 카카오의데이터파이프라인 윤도영
by
NAVER D2
PDF
DevOps with Database on AWS
by
Amazon Web Services Japan
PDF
AngularとSpring Bootで作るSPA + RESTful Web Serviceアプリケーション
by
ssuser070fa9
PDF
AWS Black Belt Online Seminar AWS Direct Connect
by
Amazon Web Services Japan
PPTX
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
PDF
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
by
Hibino Hisashi
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
by
Google Cloud Platform - Japan
PDF
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
by
Amazon Web Services Japan
PPTX
グラフデータベース入門
by
Masaya Dake
PDF
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
by
Recruit Technologies
PDF
Form認証で学ぶSpring Security入門
by
Ryosuke Uchitate
PDF
Infrastructure as Code (IaC) 談義 2022
by
Amazon Web Services Japan
PDF
ヤフー発のメッセージキュー「Pulsar」のご紹介
by
Yahoo!デベロッパーネットワーク
PDF
3分でわかるAzureでのService Principal
by
Toru Makabe
PDF
DBスキーマもバージョン管理したい!
by
kwatch
PDF
AWS で Presto を徹底的に使いこなすワザ
by
Noritaka Sekiyama
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
PDF
20190522 AWS Black Belt Online Seminar AWS Step Functions
by
Amazon Web Services Japan
PDF
初心者向けWebinar AWSで開発環境を構築しよう
by
Amazon Web Services Japan
PPTX
広く知ってほしいDNSのこと ―とあるセキュリティ屋から見たDNS受難の10年間―
by
Tomohiro Nakashima
[236] 카카오의데이터파이프라인 윤도영
by
NAVER D2
DevOps with Database on AWS
by
Amazon Web Services Japan
AngularとSpring Bootで作るSPA + RESTful Web Serviceアプリケーション
by
ssuser070fa9
AWS Black Belt Online Seminar AWS Direct Connect
by
Amazon Web Services Japan
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
by
Hibino Hisashi
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
by
Google Cloud Platform - Japan
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
by
Amazon Web Services Japan
グラフデータベース入門
by
Masaya Dake
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
by
Recruit Technologies
Form認証で学ぶSpring Security入門
by
Ryosuke Uchitate
Infrastructure as Code (IaC) 談義 2022
by
Amazon Web Services Japan
ヤフー発のメッセージキュー「Pulsar」のご紹介
by
Yahoo!デベロッパーネットワーク
3分でわかるAzureでのService Principal
by
Toru Makabe
DBスキーマもバージョン管理したい!
by
kwatch
AWS で Presto を徹底的に使いこなすワザ
by
Noritaka Sekiyama
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
20190522 AWS Black Belt Online Seminar AWS Step Functions
by
Amazon Web Services Japan
初心者向けWebinar AWSで開発環境を構築しよう
by
Amazon Web Services Japan
広く知ってほしいDNSのこと ―とあるセキュリティ屋から見たDNS受難の10年間―
by
Tomohiro Nakashima
Viewers also liked
PPT
アルゴリズムイントロダクション15章 動的計画法
by
nitoyon
PDF
今年のOss業界10大ニュース
by
Yukio Yoshida
PDF
AWS クックパッドの運用事例
by
Satoshi Takada
PDF
仕事に活きる数学講座(第四回:予測力編)
by
schoowebcampus
PDF
クラウド運用のベストプラクティスを考える - OpenStack最新情報セミナー(2016年12月)
by
VirtualTech Japan Inc.
PDF
Cookpad TechConf 2016 - DWHに必要なこと
by
Minero Aoki
PDF
仕事の成果は「聞き方」で9割決まる
by
Katsuhito Okada
PPT
第6回 itil講義資料
by
Mugen Fujii
PDF
手っ取り早くプロジェクトをなんとかしたい人のためのnanapi流ツール活用術~WebSig会議 vol.34「Webディレクター必見!プロジェクトを成功に...
by
WebSig24/7
PPTX
オブジェクト指向を学んで図解力、仕事力アップ
by
Haruo Sato
PDF
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
by
de:code 2017
PDF
日々の気づきをふりかえり、 個人とチームの成長につなげる方法
by
株式会社コパイロツト COPILOT Inc.
PDF
クックパッドの開発プロセス
by
Hiroyuki Inoue
PDF
実務で活かせる AWSアーキテクチャ設計 〜AWS re:Invent 2016アップデート最新版〜
by
真吾 吉田
PPTX
5分で分かるサイボウズのSRE
by
uchan_nos
PDF
4時間で学ぶ、効率的な自動テストスクリプトのメンテナンス
by
Nozomi Ito
PDF
Cookpadの料理画像を分類した話
by
Shunsuke KITADA
PDF
全文検索でRedmineをさらに活用!
by
Kouhei Sutou
PDF
いまの Office 365 ってこんな感じ?
by
Hirofumi Ota
PDF
ITサービスマネジメントとSRE
by
真吾 吉田
アルゴリズムイントロダクション15章 動的計画法
by
nitoyon
今年のOss業界10大ニュース
by
Yukio Yoshida
AWS クックパッドの運用事例
by
Satoshi Takada
仕事に活きる数学講座(第四回:予測力編)
by
schoowebcampus
クラウド運用のベストプラクティスを考える - OpenStack最新情報セミナー(2016年12月)
by
VirtualTech Japan Inc.
Cookpad TechConf 2016 - DWHに必要なこと
by
Minero Aoki
仕事の成果は「聞き方」で9割決まる
by
Katsuhito Okada
第6回 itil講義資料
by
Mugen Fujii
手っ取り早くプロジェクトをなんとかしたい人のためのnanapi流ツール活用術~WebSig会議 vol.34「Webディレクター必見!プロジェクトを成功に...
by
WebSig24/7
オブジェクト指向を学んで図解力、仕事力アップ
by
Haruo Sato
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
by
de:code 2017
日々の気づきをふりかえり、 個人とチームの成長につなげる方法
by
株式会社コパイロツト COPILOT Inc.
クックパッドの開発プロセス
by
Hiroyuki Inoue
実務で活かせる AWSアーキテクチャ設計 〜AWS re:Invent 2016アップデート最新版〜
by
真吾 吉田
5分で分かるサイボウズのSRE
by
uchan_nos
4時間で学ぶ、効率的な自動テストスクリプトのメンテナンス
by
Nozomi Ito
Cookpadの料理画像を分類した話
by
Shunsuke KITADA
全文検索でRedmineをさらに活用!
by
Kouhei Sutou
いまの Office 365 ってこんな感じ?
by
Hirofumi Ota
ITサービスマネジメントとSRE
by
真吾 吉田
Similar to hbstudy 74 Site Reliability Engineering
PDF
What i learned from translation of the sre ryuji tamagawa
by
Rakuten Group, Inc.
PDF
160901 osce2016sre
by
OSSラボ株式会社
PDF
160724 jtf2016sre
by
OSSラボ株式会社
PDF
エンジニア必見!Sreへの第一歩
by
Takuya Tezuka
PDF
20190306 sd#3 kitazaki_t0
by
Ayachika Kitazaki
PPTX
SRE 1st steps
by
Yuta Shimada
PPTX
もしSIerのエンジニアがSRE本を読んだら
by
Tomoki Ando
PDF
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
by
Akihiro Kadohata
PDF
Works of site reliability engineer
by
Shohei Kobayashi
PDF
SREチームとしてSREしてみた話
by
Yahoo!デベロッパーネットワーク
PDF
20220113 my seeking_sre_v3
by
Ayachika Kitazaki
PDF
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
by
OSSラボ株式会社
PDF
Google Cloud で実践する SRE
by
Google Cloud Platform - Japan
PPTX
161218 cybozu SRE
by
tomonori-saito-cybozu
PPTX
20211109 JAWS-UG SRE keynotes
by
Amazon Web Services Japan
PPTX
自動運転業界のSRE活動
by
Tier_IV
PPTX
Sr econt
by
Tsuyoshi Nakamura
PPTX
What's next for Reliability
by
Yosuke Tamura
PPTX
microservicesとSRE (第2回 SRE Lounge)
by
Yosuke Tomita
PDF
SRENEXT 2020 [B5] New RelicのSREに学ぶSREのためのNew Relic活用法
by
Takayoshi Tanaka
What i learned from translation of the sre ryuji tamagawa
by
Rakuten Group, Inc.
160901 osce2016sre
by
OSSラボ株式会社
160724 jtf2016sre
by
OSSラボ株式会社
エンジニア必見!Sreへの第一歩
by
Takuya Tezuka
20190306 sd#3 kitazaki_t0
by
Ayachika Kitazaki
SRE 1st steps
by
Yuta Shimada
もしSIerのエンジニアがSRE本を読んだら
by
Tomoki Ando
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
by
Akihiro Kadohata
Works of site reliability engineer
by
Shohei Kobayashi
SREチームとしてSREしてみた話
by
Yahoo!デベロッパーネットワーク
20220113 my seeking_sre_v3
by
Ayachika Kitazaki
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
by
OSSラボ株式会社
Google Cloud で実践する SRE
by
Google Cloud Platform - Japan
161218 cybozu SRE
by
tomonori-saito-cybozu
20211109 JAWS-UG SRE keynotes
by
Amazon Web Services Japan
自動運転業界のSRE活動
by
Tier_IV
Sr econt
by
Tsuyoshi Nakamura
What's next for Reliability
by
Yosuke Tamura
microservicesとSRE (第2回 SRE Lounge)
by
Yosuke Tomita
SRENEXT 2020 [B5] New RelicのSREに学ぶSREのためのNew Relic活用法
by
Takayoshi Tanaka
More from Ryuji Tamagawa
PDF
20171012 found IT #9 PySparkの勘所
by
Ryuji Tamagawa
PDF
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
by
Ryuji Tamagawa
PDF
PySparkの勘所(20170630 sapporo db analytics showcase)
by
Ryuji Tamagawa
PDF
20170210 sapporotechbar7
by
Ryuji Tamagawa
PDF
20161215 python pandas-spark四方山話
by
Ryuji Tamagawa
PDF
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
by
Ryuji Tamagawa
PDF
20160708 データ処理のプラットフォームとしてのpython 札幌
by
Ryuji Tamagawa
PDF
20160127三木会 RDB経験者のためのspark
by
Ryuji Tamagawa
PDF
20151205 Japan.R SparkRとParquet
by
Ryuji Tamagawa
PDF
Performant data processing with PySpark, SparkR and DataFrame API
by
Ryuji Tamagawa
PDF
Apache Sparkの紹介
by
Ryuji Tamagawa
PDF
足を地に着け落ち着いて考える
by
Ryuji Tamagawa
PDF
ヘルシープログラマ・翻訳と実践
by
Ryuji Tamagawa
PDF
Google Big Query
by
Ryuji Tamagawa
PDF
BigQueryの課金、節約しませんか
by
Ryuji Tamagawa
PDF
You might be paying too much for BigQuery
by
Ryuji Tamagawa
PDF
Google BigQueryについて 紹介と推測
by
Ryuji Tamagawa
PDF
lessons learned from talking at rakuten technology conference
by
Ryuji Tamagawa
PDF
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
by
Ryuji Tamagawa
PDF
Mongo dbを知ろう devlove関西
by
Ryuji Tamagawa
20171012 found IT #9 PySparkの勘所
by
Ryuji Tamagawa
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
by
Ryuji Tamagawa
PySparkの勘所(20170630 sapporo db analytics showcase)
by
Ryuji Tamagawa
20170210 sapporotechbar7
by
Ryuji Tamagawa
20161215 python pandas-spark四方山話
by
Ryuji Tamagawa
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
by
Ryuji Tamagawa
20160708 データ処理のプラットフォームとしてのpython 札幌
by
Ryuji Tamagawa
20160127三木会 RDB経験者のためのspark
by
Ryuji Tamagawa
20151205 Japan.R SparkRとParquet
by
Ryuji Tamagawa
Performant data processing with PySpark, SparkR and DataFrame API
by
Ryuji Tamagawa
Apache Sparkの紹介
by
Ryuji Tamagawa
足を地に着け落ち着いて考える
by
Ryuji Tamagawa
ヘルシープログラマ・翻訳と実践
by
Ryuji Tamagawa
Google Big Query
by
Ryuji Tamagawa
BigQueryの課金、節約しませんか
by
Ryuji Tamagawa
You might be paying too much for BigQuery
by
Ryuji Tamagawa
Google BigQueryについて 紹介と推測
by
Ryuji Tamagawa
lessons learned from talking at rakuten technology conference
by
Ryuji Tamagawa
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
by
Ryuji Tamagawa
Mongo dbを知ろう devlove関西
by
Ryuji Tamagawa
hbstudy 74 Site Reliability Engineering
1.
Site Reliability Engineering (サイトリライアビリティエンジニアリング) -
Googleが提唱するシステム運用者のあり方を体系化した “SRE“について - 2017/7/25 玉川竜司@翻訳者
2.
簡単に自己紹介 • 某社の開発チーム所属です • 本業とは別に、オライリージャパンからコンピュータ関係の技術書を翻訳出版しています •
8月出版予定の最新刊が「サイトリライアビリティエンジニアリング」
3.
既刊
4.
今年の予定
5.
本日の内容 • The SRE
Bookの出版と日本での動き • Site Reliability Engineerとは? • 速度と信頼性、そしてデータに基づく業務判断 • 技術の話 • 育成・採用の話
6.
はじめにご承知おきいただきたいこと • 本日お話しすることは、ほぼすべて出版される書籍に書かれていることです • 私自身がSRE的なポジションで実際に働いているわけではないので、お話でおきる ことはほぼすべて「伝聞」のようなものです •
とはいえ、SREという役割が生まれた背景や解決しようとする課題は、ソフトウェ アの開発やサービス、運用にかかわる方なら十分理解できる(というか身につまさ れる)ことであり、今日のお話、そしてSRE本からお持ち帰りいただけることもた くさんあると考えています • 質問は随時していただいて結構です
7.
The SRE Bookの出版と 日本での動き
8.
始まりはこの本:The SRE Book 「Google
の社員たちは彼らがたどってきたプロセスを、つまずきも含めて 本書で明らかにしてくれている。Google のサービスが巨大な規模と素晴ら しい信頼性を共に実現できたのは、このプロセスによるものだ。統合され たサービス群を生み出し、それらをスケールさせたいと考えている方々に は、本書を読むことを強くおすすめする。本書は、メンテナンス性の高い サービスを構築するための、現場の方々に向けたガイドである」 - Rik Farrow, USENIX 「Gmail のような大規模なサービスを書くのは難しいことだ。高い信頼性の 下でそれらを動作させるのはさらに難しいことであり、ましてやそれが 日々変化するのであればなおさらだ。包括的な「レシピ本」である本書は、 Google がそれをどう成し遂げているのかを教えてくれる。 読者の皆さんは、自分で間違いを犯すよりも、私たちの間違いから学ぶ方 が負担が少ないことに気づくだろう」 - Urs Hölzle, SVP テクニカルインフラストラクチャ、Google
9.
日本でも続々誕生 • メルカリ http://tech.mercari.com/entry/2015/11/18/153421 • スマートニュース https://www.slideshare.net/NobutoshiOgata/introducing- inhouse-paas-in-smartnews •
サイボウズ http://blog.cybozu.io/entry/2016/09/01/080000
10.
翻訳しました • ほんと大変でした… • とにかく分量が多い(文字だらけ) •
監訳者の皆様超熱心 • 翻訳開始から発売までほぼ一年 • なお、全体に「カタカナより」の翻訳になって います ワード数 価格 ワード単価 SRE 188,971 4,800円 0.0025 Docker 104,767 3,600円 0.0034 しかし、歴史的な名著であることは間違いないと思います! SREの原則はデータの計測に基づく判断。 高いと言われるSRE本ですが、ワード単価で計測すれば大変お得です
11.
日本語版ではサブタイトルを変更 • 英語版:How Google
runs production systems (Googleはどのようにプロダクションシステムを動作させているか) • 日本語版:
12.
見るべきは、技術論よりも組織論 • なぜGoogleは次々と信頼性の高いサービスを投入・運用できるのか? • もちろんGoogleが気づき上げた技術の蓄積もあるが、組織としての考え 方が果たしている役割が大きい 本書はあらゆる規模のサービスの運用にさまざまな形で関わるすべての人に向けて書かれています。大規模で多数のユー ザーがいるサービスの運用者はもちろんのこと、まだ信頼性が第一のフォーカスでないようなサービスの運用にあたっても 手間やコストを下げてより開発の速度を上げるのに役立つ情報が得られるでしょう。個人でサービスを開発や運営されてい る方にも実践できる内容が数多くあります。 また、普段運用に直接は関わる機会の少ない方々にもぜひ読んでいただきたく思っています。ソフトウェア開発者にも、 SRE
の視点を得ることで設計や実装に活かせる新しい発見が数多くあることでしょう。サービスの運用コストはその設計や 実装に大きく依存していますし、サービスの運用と開発の協調もSRE の重要なポイントの1 つです。SRE チームのマネー ジャーや、新しくSRE組織を立ち上げたいと考えているCTO にも、SRE のコアバリューについての理解を深める一助となる ことでしょう。 (監訳者まえがきより)
13.
目次 1. イントロダクション 2. SRE
の観点から見たGoogle のプロダクション環境 3. リスクの受容 4. サービスレベル目標 5. トイルの撲滅 6. 分散システムのモニタリング 7. Google における自動化の進化 8. リリースエンジニアリング 9. 単純さ 10. 時系列データからの実践的なアラート 11. オンコール対応 12. 効果的なトラブルシューティング 13. 緊急対応 14. インシデント管理 15. ポストモーテムの文化:失敗からの学び 16. サービス障害の追跡 17. 信頼性のためのテスト 18. SRE におけるソフトウェアエンジニアリング 19. フロントエンドにおけるロードバランシング 20. データセンターでのロードバランシング 21. 過負荷への対応 22. カスケード障害への対応 23. クリティカルな状態の管理: 信頼性のための分散合意 24. cron による分散定期スケジューリング 25. データ処理のパイプライン 26. データの完全性 27. 大規模なプロダクトのローンチにおける信頼性 28. SRE の成長を加速する方法 29. 割り込みへの対処 30. SRE の投入による運用過負荷からのリカバリ 31. SRE におけるコミュニケーションとコラボレーション 32. 進化するSRE のエンゲージメントモデル 33. 他の業界からの教訓 34. まとめ
14.
(余談) SREの皆さんの仕事っぷり • Google
Docsのヘビーな活用 • 必要なドキュメントを非常に手早く、しかも適切な集計/自動 化を施して作成 • いわゆるOffice系ツールの活用能力もとても大事 • ちなみに最終の校正はdropboxでした…
15.
(余談)三人称単数の’They’ • Theyが単数形として使われている(動詞が三単現のs付き)文 がある • 誤植かと思いきや… •
Gender neutralな表現として、性別を持たない「人」を表す代 名詞としてtheyが使われるようになっているとのこと
16.
Site Reliability Engineerとは?
17.
Site Reliability Engineerという職種/チーム •
基本的には運用サイド(Ops)の職種 • スキルとして、インフラに加えてプログラミングが必須 • Googleの開発職に要求されるプログラミングスキルの8~9割が必要 • 仕事は大きく分けて運用の業務(オンコールなど)と「改善」のためのエンジニアリング (Googleのインフラストラクチャ) (サービスごとに担当はあるものの、SRE自体は全社横断的な組織) 開発チーム 開発チーム 開発チーム SREチーム SREチーム SREチーム サービスA サービスB サービスC
18.
SREの原則 • 信頼性にフォーカスを置く • ソフトウェアエンジニアリングによって運用を自動化し、スケールできるように する •
手作業 → 自動化 → 自律化 • SREチームの規模はサービスの規模に比例してはならない(サービスの複雑さには影響を 受ける) • 「トイル」の撲滅 • 「トイルとは、プロダクションサービスを動作させることに関係する作業で、手作業で繰り返し行われ、 自動化することが可能であり、戦術的で長期的な価値を持たず、作業量がサービスの成長に比例すると いった傾向を持つもの」 • 英雄的な献身に頼るのではなく、組織としての仕組みづくりを重視する
19.
速度と信頼性、 そしてデータに基づく業務判断
20.
重要視していること:速度と信頼性 • ここでの「速度」は新しい機能やサービスを投入するペースのこと • 「信頼性」は(主に)SLO(Service
Level Objective)のこと • 開発者(Devs)は速度を、運用者(Ops)は信頼性を重視する傾向 がある 開発チーム 運用チーム 新機能を リリースしたい 動いているものは 変更したくない 緊張関係
21.
計測されたデータに基づく業務判断 • エラーバジェット • 50%ルール 以下はGoogleでの例ですが、あくまでこれは「Googleでは」こういう実施方法を取ってい るということであって、肝心なのは ・品質を示すデータの定義 ・定義されたデータの計測 ・計測されたデータに基づいて業務判断をしていくこと だと思います。
22.
エラーバジェット • SLO(サービスレベル目標):計測するデータの定義 • Googleの場合は「完全に落ちる」ことはほぼないので、 成功したリクエスト数
/ リクエスト数 などを指標としている • エラーバジェット = 1 – SLO • (Googleでは通常四半期単位でデータを計測) • エラーバジェットが残っている限り新機能をリリースできる(業務判断) • エラーバジェットがなくなった場合、リセットがかかるまで(緊急のセ キュリティ対応などを除き)新機能のリリースは禁止
23.
100%は目指さない • たとえばコンシューマ向けのサービスであれば、99.99%の可用性と 99.999%の可用性の違いはユーザーにはほぼ分からない(デバイス の故障、回線の問題など、他の要因で事実上マスクされる) • この場合、0.009%の可用性向上のためのコストは無駄 •
サービスの性格に応じたSLOの定義が非常に重要 • 「航空機やペースメーカーの信頼性の話はまったく異なる」
24.
50%ルール • SREはその作業時間(計測データの定義と計測)の50%以上をエンジニア リング業務に当てなければならない • SREが運用業務(含む障害対応)に当てる時間が50%を超えた場合、50% 以下に戻るまでは開発チームがSREの支援に時間を当てる(業務判断) データに基づいて業務判断を行うことをルール化することによって、 開発チームとSREチームが同じ方向を向いて業務に当たれるようにする
25.
技術の話
26.
「魔法」の話はあまり出てきません • 本書に出てくるのはある意味で「地味」な話です • Googleのインフラがなければ意味のない話なのか?→そんなこ とはありません •
ソフトウェアでコントロールできる範囲の話であれば、学べる ことはたくさんあります
27.
計測と改善の仕組み作り • 必要なメトリクスを得るための仕組みをインフラに作り込む • 収集したメトリクスをモニタリングするための仕組みを作り込む •
基本的なメトリクスの取得の仕組みがすべてのマシンに共通して組み込ま れている • たとえばPythonあたりでスクリプトが書けるなら、自分たちの環境でも できることは多いはず
28.
徹底した自動化志向 • 自動化のメリットは「複利」 • 手動
(トイル)→ 自動化 → 自律化 • 「トイルとは、プロダクションサービスを動作させるこ とに 関係する作業で、手作業で繰り返し行われ、自動化す ることが可能であり、戦術的で長期的な価値を持たず、 作業量がサービスの成長に比例するといった傾向を持つも の」
29.
採用・育成の話
30.
SREの採用はたいへん • Googleの開発エンジニアに求められるスキルの80-90% • 加えてインフラ周りの知識が必要 •
基本的に需要に対して供給不足 (Googleのインフラストラクチャ) (サービスごとに担当はあるものの、SRE自体は全社横断的な組織) 開発チーム SREが開発したライブラリ サービス SREという「人」ではなくSRE のノウハウを詰め込んだライ ブラリを使ってもらう
31.
教育とオンコール • オンコール対応になることはキャリアの1つのマイルストーン • そこに至るまでの教育システムもきちんと整備する •
「千尋の谷に突き落とす」ようなやり方はしない • ドキュメント→ポストモーテム→シャドウ→オンコール
32.
障害対応とトレーニング • 年に一度、全社的な障害対応のトレーニング • 「たまにしかやらないことは身につかない」ことを受け入れる •
障害対応時の手順を日常業務に組み込んでおく • できないことを精神論でかたづけない
33.
まとめ
34.
• 自動化によってスケーラビリティの向上、トイルの撲滅、そし て更なる自動化のための時間をつくること • ソフトウェア開発によって運用を改善していくこと •
データ(SLO)の定義、データを計測する仕組みづくり、計測 されたデータに基づく業務判断によって、開発チームとSRE チームが同じ方向を向けるようにすること
35.
質問をどうぞ!
Download