DevOpsのはじめの一歩
   〜監視の変遷〜

  株式会社サイバーエージェント
  アメーバ事業本部プラットフォームディビジョン
  システムディベロップメントグループ
  CA Developers Connect
                          桑野   章弘
自己紹介

桑野章弘
インフラエンジニア
  アメーバピグの運用/構築を担当
  ピグライフの運用/構築を担当
Twitter
  http://twitter.com/kuwa_tw
Blog
  http://d.hatena.ne.jp/akuwano/
著書/活動
  「MySQLによるタフなサイトの作り方」
  勉強会(hbstudy, qpstudyほか)などでの発表など


                                    2
ピグライフ




        宣伝タイム終了




                  3
DevOpsについてはなすの?

よし書こう
宮下さんの資料を⾒直した




                  4
DevOpsについてはなすの?




                  5
DevOpsについてはなすの?

よし書こう
宮下さんの資料を⾒直した
あれ、、、いいたい事殆ど言われてる、、、




  ちょwいうこと無いw
                       6
と、言うわけで

これは変化球しかない
と、思った時
弊社のサービス運用には特徴があることを思い
だしました。




                        7
kuwa_twの主張


             プログラマが、監
             視の一時受け、監
             視設定をやってま
               す!!!




                        8
大昔のアメーバ




     昔の話をしよう



                       ン
                   コ
               ワ   9
大昔のアメーバ

アウトソーシング監視
 とりあえず問題あった
 らマニュアルどおり対   監視よろし   おまちくだ
 応してくれる        くー。    さーい♪

 対応できない障害はイ
 ンフラチーム
 それはそれでとっても
 幸せな事?




                              10
大昔のアメーバ

アウトソースの弊害
 なんとなく再起動が発動してなんとなく復旧し
 ている
 何が起きてるか視えづらい為監視項目は洗い出
 しにくい
 インフラが障害対応する事が極端に多かった
 監視項目が十分でなかったり、監視側にうまく
 伝わらないパターンなどのコミュニケーション
 障害
このシステムなんで動いてるの?
                         11
大昔のアメーバ

継続的な改善がしづらい
アウトソースが当たり前で自分たちが運用する
と言う当事者意識が薄くなる
開発の⼈たちは特にサーバ以下を意識しづらく
なってしまう
スキルの蓄積が⾏いにくい




                        12
も   現在のアメーバ
        う
    い
い



                    現在の話をしよう




                               13
監視の内製化

外部で⾏っていた監視を中へ
⼤号令
監視システムを内へ持ってきた
障害対応もすべて内製




                 14
監視の内製化

障害対応
 障害一時受け〜切り分けはサービス開発側責任
 者は必ず⾏う
 切り分けた結果がインフラ側と思われるならイ
 ンフラへエスカレーション




システムについて知らざるを得ない
                         15
監視の内製化後〜現在

実施できている事
PDCA
サービス運用者の責任
プログラマ/インフラの垣根を低く
(DevOps?)




                   16
監視の内製化後〜現在

PDCA(Plan Do Check Act)
 定期的なアラートチェック
   種別   例) APサーバのLoadAverage
   頻度   例)5回/日
   時間など 例)ピーク時
 チェック漏れの改善
   プログラマ/インフラ で話し合って決める
   「これだとDBレプリが遅れた時にチェックできないから
   チェック追加しよう」




                                17
監視の内製化

サービス運用者の責任
監視のソリューションは各サービス運用者が決
定する
 通知系
  - Mon
  - Nagios
  - Zabbix
 リソース系
  -   Munin
  -   Cacti
  -   Ganglia
  -   MRTG




                        18
監視の内製化

サービス運用者の責任
障害監視の一時受けは開発の責任者
 自分が寝るためにSPOFを作らないとか
 リソースチェックして必要なら爆発する前に追加するとか




  自分のサービスへの責任
                              19
監視の内製化

プログラマ/インフラの垣根を低く
(DevOps?)
プログラマが監視にかかわる事で、インフラも
プログラマも一緒にサービスのシステムがどう
動いているかを把握する。
プログラマがサーバを。
インフラがコードを。




                        20
監視の内製化

結果として自動化/共有ツールが出来る
Mon設定の自動化/集約ツール
障害情報集約ツール
機器情報管理ツール
Redmine
Wiki
Etc Etc




                     21
kuwa_twの主張?


              DevOpsはアウト
              ソースではやりに
                 くい!?




                           22
アウトソースって悪?

そんなことは無い
甘えでアウトソースをしているのでは無く必要
性がわかった上でアウトソースをする
我々は「何を」アウトソースしているのか




                        23
まとめ

監視は一例
 サービス運営者として自分がサービスに関わっている
 事
 サービスが安定してればOK?NO!
 事業が最⼤化する形で安定させ続ける形にするのが目
 的




 DevOpsに至るはじめの一歩

                            24
ご清聴ありがとうございました!




                  25

DevOpsのはじめの一歩 〜監視の変遷〜