Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

SREチームとしてSREしてみた話

521 views

Published on

4月にSREチームに配属されてからSREを意識して行った数々の奮闘を少しだけお話します。

Published in: Technology
  • Be the first to comment

SREチームとしてSREしてみた話

  1. 1. SREチームとしてSREしてみた話 Ryota Suginaga ( @transnano )
  2. 2. Agenda Self-introduction Team-introduction What's SRE Our team's SRE Summary
  3. 3. Self-introduction Key Value Note Name Ryota Suginaga @transnano Birth 2 Jun 1987 生まれも育ち も福岡 Hobby テニス、バレー、自転 車、スノボ、 カメラ、ポケモンGo、ハ ッカソン 通称:殿 Job Apr 2012~:SE Jan 2018~:Yahoo! JAPAN SRE部
  4. 4. Questions SRE聞いたことある人? SRE説明できる人? SREやったことある人?
  5. 5. What's SRE サービスの運用をソフトウェアエンジニアリング の力で改善していく取り組み What's the Difference Between DevOps and SRE? DevOps を哲学とするならば、SRE はその哲学を達成す るための規範的な方法 class SRE implements DevOps
  6. 6. Introduction of SRE ⇒サービスを安定稼働させることが仕事 SREチームの責任は以下に示すように多岐に渡る サービスの可用性、レイテンシ、パフォーマン ス、効率性、変更管理、モニタリング、緊急対 応、キャパシティプランニング 稼働率100% は目指すな 、リスクを許容せよ トイルの撲滅:スケールを阻害するもの 運用業務50% 以下 サービス障害を恐れず、コントロールする
  7. 7. Our team's SRE トイルの撲滅、オーバーヘッドの削減 効率化、自動化、etc... モニタリング&アラート 強化、etc... 目標:運用業務時間 、開発業務時間
  8. 8. Team-introduction SREとして必要なツールやPFを提供している部隊 チーム 4月にできたばかり、開発メンバー7名 プロダクト 他チームが持っていたものを引き継いだx3 働き方 Scrum モブプログラミング/ペアプログラミング リモート開発(オフィス 自宅,福岡 東京)
  9. 9. 効率化 なくしたもの/減らせたもの 属人化 会議 メール 一本化したもの 問い合わせ窓口(ツール) 手順書置き場 etc...
  10. 10. 会議室予約 福岡や東京の会議室の予約が週に7室分 悩み:取り忘れる、TV会議室少ない、バラバラ、etc... Microsoft Flow使って、定期実行で予約 ⇒様々なサービスを連携してくれるもの 確実!漏れなし!予約後はチャットに通知
  11. 11. PR確認の効率化 チームで計6 つのOrganizationを持つ ⇒PRの一覧を見るのがたいへーーん! 複数のOrgに跨るPRをチャットに集約
  12. 12. PR確認の効率化の偏移 朝会のタイミングで通知していた時代 1. Screwdriver(CI/CD)(定期実行) 2. FaaS(定期実行) 欲しい時に欲しい情報が手に入る時代 3. ChatOps(message駆動で上記FaaSが起動) 4. GitOps(PR駆動でDanger->上記FaaSが起動)
  13. 13. PRの作法を形式化して指摘を自動化するツール レビュアーを自動で割り当てる テスト更新漏れがないか TODO/FIXMEが残っていないか Base branchが間違っていないか これ、WIPだけどいいの?的な Webhookのみでは実現できない条件をDangerで実装
  14. 14. リリース&構成管理 トイル:全手動デプロイ環境もある、Chef のツラミ 1. 全手動からAnsible によるリリースに対応 2. 新機能分はAnsible で開発 3. Screwdriver からAnsible でデプロイする環境を整備 GitOpsでテスト環境へはデプロイ出来た
  15. 15. モニタリング&アラート 悩み: Sensu とnagios だったり、やりたいことできない Prometheus + alertmanager + grafana に移行 安定稼働やキャパシティプランニングのため以下監視 プロセス、リソース、異常ログ、外形、振る舞い 良くなった点 監視項目を柔軟に追加できるようになった サーバの異常にすぐに気付けるようになった
  16. 16. Summary SREとして SRE本の一部は実践できた 運用業務時間 、開発業務時間 は達成 スクラムとSREは相性がいい トイルを認識する→解消するサイクルができた まだまだ道半ばですよ この後の懇親会でSREについて語りましょう
  17. 17. Enjoy writing slides! https://github.com/yhatt/marp Copyright © 2016 Yuki Hattori This software released under the MIT License.

×