Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

守る - cybozu.com 運用の裏側

22,137 views

Published on

cybozu.com カンファレンス II 講演資料
2012-09-26

Published in: Technology
  • Be the first to comment

守る - cybozu.com 運用の裏側

  1. 1. 守るcybozu.com 運用の裏側 山本泰宇 @ymmt2005
  2. 2. 今回技術の難しい話は しません
  3. 3. こんな疑問ありませんか?ファーストサーバーのような事故は起きる?ISMS/ISO27001 認証あれば安心?サービスレベルって何?トラブル発生時は誰がどう対応するの?
  4. 4. 運用とはシステムなどが正常に稼動し続けられるような状態を維持すること。異常の兆候がないか状態の監視したり、最新版のソフトウェアに入れ替える等の保守作業、老朽化した設備の更新、障害に備えたデータなどの保全、障害時の復旧作業などが含まれる。 via e-words
  5. 5. 運用=商品cybozu.comの「商品の一部」• 月500円 = Officeの値段 月500円 = Office + 運用の値段• 「運用の説明」 = 「商品の説明」• 「運用障害」 = 「商品の不具合」• 「運用への投資」 = 「商品価値増大」
  6. 6. 月500円に含まれるものここを サイボウズ解説 Office 運用サービス • 障害監視、性能監視、 1GBのディ チューニング、バージョン アップ、OS・ミドルウェア スクスペース の保守、バックアップ、古 い機材の更新、etc.
  7. 7. ここからの内容原理と原則 • 前提としていること 目標 • サービスレベル 手段 • 自動監視システム等 体制 • 平時・緊急時の運用体制 保証 • 本当にやっているのか?
  8. 8. 原理山本の公理• 人はミスをする• 機械は壊れる• ソフトウェアにはバグがあるハインリッヒの法則• 俗にいう「ヒヤリ・ハット」• 重大:軽微:ニアミス = 1:29:300
  9. 9. 原則 データ優先 •顧客データの保護 > サービス再開 > 原因究明開発者を •開発者は運用環境にアクセスできません信用しない •開発用に、別データセンターを運営オペレーターを •通常運用は完全自動化 信用しない •手動操作履歴はすべてログ保存ソフトウェアを •利用する範囲で安定運用ができるか評価信用しない •バックアップデータに正常アクセスできることを定期確認社長のいうこと •安定運用に支障があるものは、リリースを拒否無茶を通さない •リリース後に発覚したものは即時の改修を要求
  10. 10. 略して頑固一徹
  11. 11. サービスレベル目標項目 目標稼働率 99.9%応答時間 4秒以内利用開始まで 3分以内復旧時間 単純障害は無停止 (VMホスト障害は10分)ログ保存期間 オンラインで1年間
  12. 12. 目標なくして 運用なし!
  13. 13. 目標なくして運用なし!稼働目標があるから• 各目標値を測定して、• 自動監視・有人監視体制を構築、• 性能監視してチューニングしています目標がなければ• 落ちていても気づかない• 性能が低下しても改善しない• 予算・人員もつかない
  14. 14. 監視システム データセンター• 外形アクセス監視• バックグランド処理監視 24時間有人監視センター• リアルタイムアクセスログ監視• ストレージ監視• プロセス監視• リソース使用率監視• etc. オペレーター
  15. 15. 目標→測定→公開6月30日のうるう秒トラブル cybozu.com Webサイトで公開していますhttps://www.cybozu.com/jp/service/slo/availability.html
  16. 16. Square ストレージシステム
  17. 17. Squareの秘密誤操作の • 独立したバックアップ専用サーバー 防止 • 東日本DCからレプリカの操作は不可 自動 • リストア結果が正常か毎日自動チェックベリファイ • リストアボリュームで事前にリハーサルリハーサル • 分離されているので運用環境に影響なし
  18. 18. オペレーションルール3カ条 作業ミス対策極力自動化 自動保存 操作ログの作業しない 勇気 臨時バックアップ自作ツール 禁止 事前リハーサル
  19. 19. ISMS/ISO27001意味するところ• 規則が決まっている• 規則通り作業している 意味しないところ • 運用レベルが高いか否か • 中身を確認することが重要!効果• 規則を決めてドキュメントにする文化• 規則通り作業する文化
  20. 20. サイボウズ固有のISMS運用具体的な目標値• ITILや非機能要求グレードを参考に設定オペレーター「も」信用しない• 手順ミス防止を、自動化でさらに追及CSIRT (Computer Security Incident Response Team)• セキュリティ問題を全社で一元管理する体制を整備情報公開• 稼働率目標・結果やストレージの情報を公開• 各テナント別稼働率なども今後の公開を予定
  21. 21. まとめcybozu.com 運用チームは頑固一徹目標なくして運用なし!認証≠高品質、中身が重要です
  22. 22. Questions?

×