投げやすい椅子と      投げにくい椅子の見分けかた      Monitoring Casual Talks #1 (2012/06/15)      @tagomoris12年6月18日月曜日
@tagomoris               NHN Japan Corp              Web Service Division12年6月18日月曜日
Fluentdの話12年6月18日月曜日
Fluentdの話は、しません12年6月18日月曜日
今日のお話         投げやすい椅子         投げにくい椅子12年6月18日月曜日
今日のお話         投げやすい椅子アラート?         投げにくい椅子アラート?12年6月18日月曜日
椅子 == アラート ?         椅子              投げるべきときには投げる              アラートとは別              やばいときには投げるべき12年6月18日月曜日
椅子 == アラート ?         椅子              投げるべきときには投げる              アラートとは別              やばいときには投げるべき         やばい == アラート ……あれ?...
アラート         監視システムからの警告 (WARN/CRIT)         問題ない状況でアラートを投げてはいけない              「常にアラート出てる」状況への慣れは超危険         投げられたら対処すべきもの...
「投げる」が              ゲシュタルト崩壊してきた12年6月18日月曜日
アラート もうすこし         種類を考える              深刻度              可逆・不可逆性 (放っておいても戻らないものかどうか)         傾向と対策のための通知としてのアラート         サー...
深刻である        深刻でない                       プロセスダウン         不可逆性                        ディスク障害      ディスク使用率高      (対応しないと戻らない...
アラート対応の優先度         サービス停止         サーバ停止         サーバ停止?         サーバこのままだと停止         サーバ動いてるけどなんか怪しい         サーバちょこちょこ負荷上がり気...
椅子について         やってはいけないことをやってしまうのは悪              そうは言うけど、しょうがないこともある         必要が分かりきっているのにやらないのは極悪              まあみんな忙しいし…...
椅子だ、椅子をもて!12年6月18日月曜日
投げにくい椅子         処理増加による負荷上昇・パフォーマンス低下              CPU、メモリ、loadavg              レプリケーション遅延、キュー滞留         傾向と対策のための検出・アラート ...
投げやすい椅子         設定不備による問題              httpdが足りないで詰まる or forkでloadavg上昇              log rotate設定されてない! 世代数大杉だ!         即座...
何が言いたかったか         なんだっけ……。12年6月18日月曜日
考えられるといいよね         アラートにも優先順位がある              突発的なサービス停止は当然最優先だけど              不可逆性のものを本来は優先して対処すべき         さっさと解決するものは解決し...
椅子は軽々に投げるべからず         いざというときに投げるから価値がある         投げないと解決しないときに投げたい              解決 ==「理解してもらって繰り返させない」         慣らしてはダメ12年6...
おわり              Thanks!12年6月18日月曜日
Upcoming SlideShare
Loading in …5
×

投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

2,576 views

Published on

Published in: Technology

投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

  1. 1. 投げやすい椅子と 投げにくい椅子の見分けかた Monitoring Casual Talks #1 (2012/06/15) @tagomoris12年6月18日月曜日
  2. 2. @tagomoris NHN Japan Corp Web Service Division12年6月18日月曜日
  3. 3. Fluentdの話12年6月18日月曜日
  4. 4. Fluentdの話は、しません12年6月18日月曜日
  5. 5. 今日のお話 投げやすい椅子 投げにくい椅子12年6月18日月曜日
  6. 6. 今日のお話 投げやすい椅子アラート? 投げにくい椅子アラート?12年6月18日月曜日
  7. 7. 椅子 == アラート ? 椅子 投げるべきときには投げる アラートとは別 やばいときには投げるべき12年6月18日月曜日
  8. 8. 椅子 == アラート ? 椅子 投げるべきときには投げる アラートとは別 やばいときには投げるべき やばい == アラート ……あれ?12年6月18日月曜日
  9. 9. アラート 監視システムからの警告 (WARN/CRIT) 問題ない状況でアラートを投げてはいけない 「常にアラート出てる」状況への慣れは超危険 投げられたら対処すべきもの 毎回? すぐに? そのうち?12年6月18日月曜日
  10. 10. 「投げる」が ゲシュタルト崩壊してきた12年6月18日月曜日
  11. 11. アラート もうすこし 種類を考える 深刻度 可逆・不可逆性 (放っておいても戻らないものかどうか) 傾向と対策のための通知としてのアラート サービス停止もしくはその予兆としてのアラート12年6月18日月曜日
  12. 12. 深刻である 深刻でない プロセスダウン 不可逆性 ディスク障害 ディスク使用率高 (対応しないと戻らない) ディスクFULL pingドロップ TCP接続失敗 可逆性? loadavg超上昇 loadavg上昇 (原因(高負荷など)が去ったら 多分戻る) swap使用率上昇 メモリ使用率上昇 戻らない場合も多い キュー滞留数増加 レプリケーション遅延12年6月18日月曜日
  13. 13. アラート対応の優先度 サービス停止 サーバ停止 サーバ停止? サーバこのままだと停止 サーバ動いてるけどなんか怪しい サーバちょこちょこ負荷上がり気味ですね12年6月18日月曜日
  14. 14. 椅子について やってはいけないことをやってしまうのは悪 そうは言うけど、しょうがないこともある 必要が分かりきっているのにやらないのは極悪 まあみんな忙しいし…… 間違ってしまっているのを握り潰すのは至上の悪 ……12年6月18日月曜日
  15. 15. 椅子だ、椅子をもて!12年6月18日月曜日
  16. 16. 投げにくい椅子 処理増加による負荷上昇・パフォーマンス低下 CPU、メモリ、loadavg レプリケーション遅延、キュー滞留 傾向と対策のための検出・アラート お昼に改良(できるといいね!)、サーバ追加、等12年6月18日月曜日
  17. 17. 投げやすい椅子 設定不備による問題 httpdが足りないで詰まる or forkでloadavg上昇 log rotate設定されてない! 世代数大杉だ! 即座に対処すべき disk full は即死亡 → disk usage highを見逃す担当者 には椅子を12年6月18日月曜日
  18. 18. 何が言いたかったか なんだっけ……。12年6月18日月曜日
  19. 19. 考えられるといいよね アラートにも優先順位がある 突発的なサービス停止は当然最優先だけど 不可逆性のものを本来は優先して対処すべき さっさと解決するものは解決しちゃった方がいい セクショナリズムは悪 システム面の問題なら得意でしょ12年6月18日月曜日
  20. 20. 椅子は軽々に投げるべからず いざというときに投げるから価値がある 投げないと解決しないときに投げたい 解決 ==「理解してもらって繰り返させない」 慣らしてはダメ12年6月18日月曜日
  21. 21. おわり Thanks!12年6月18日月曜日

×