Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Reducing Noisy Nagios Alerts

6,738 views

Published on

Published in: Technology, Design
  • Be the first to comment

  • Be the first to like this

Reducing Noisy Nagios Alerts

  1. 1. Reducing Noisy Alerts from Nagios Monitoring Casual Talk #1 Takumi SAKAMOTO @takus12年6月15日金曜日
  2. 2. Self Introduction • Takumi SAKAMOTO • @takus • DeNA Co., Ltd. (2012.4 ~) • Operation Engineer ?12年6月15日金曜日
  3. 3. Before Joining DeNA12年6月15日金曜日
  4. 4. My365 A Photo Sharing SNS12年6月15日金曜日
  5. 5. 12年6月15日金曜日
  6. 6. < 20 Servers12年6月15日金曜日
  7. 7. After Joining DeNA12年6月15日金曜日
  8. 8. Mobage12年6月15日金曜日
  9. 9. > 1000 Servers12年6月15日金曜日
  10. 10. What’s the Difference?12年6月15日金曜日
  11. 11. Someone Said That ... • What happens once in every million times happens 3500 times per day http://blog.nomadscafe.jp/2011/05/post-12.html12年6月15日金曜日
  12. 12. In the Context of Nagios ... (Photo : Postal Loathing by justin) http://www.flickr.com/photos/justin/2412778/12年6月15日金曜日
  13. 13. Too Many Alert Mails • Problems • continue to call our mobile phone • sometimes hide more important alerts • burden mail systems12年6月15日金曜日
  14. 14. How to Reduce Unnecessary Alerts12年6月15日金曜日
  15. 15. #1: Defining Service Dependencies • Approach • whatever you use for monitoring remote host status, the status depend on what you use for monitoring • e.g. SNMP, NRPE, SSH ... • define service dependencies between parent service and child services12年6月15日金曜日
  16. 16. Consider Simple Case 1 • Your nagios monitors remote hosts via SNMP • CPU, DISK, NTP, MEMORY • all services are OK CPU DISK Nagios SNMP NTP MEMORY Remote Host12年6月15日金曜日
  17. 17. Consider Simple Case 2 • Nagios sometimes fails to check status by SNMP because of high server load • In this case, nagios evaluates all service status are UNKNOWN and sends us 4 alert mails CPU ??? DISK Nagios SNMP NTP MEMORY Remote Host12年6月15日金曜日
  18. 18. Consider Simple Case 3 • If many servers become over-loaded once, nagios sends us a lot of noisy alert mails • because it is obvious that SNMP doesn’t work well12年6月15日金曜日
  19. 19. Defining SNMP Service Dependencies • Nagios stop to send alert mail if SNMP returns UNKNOWN • you will receive only a SNMP CRITICAL alerts define servicedependency { dependent_host_name host1 dependent_service_description CPU,DISK,MEMORY,NTP host_name host1 service_description SNMP notification_failure_criteria u }12年6月15日金曜日
  20. 20. #2: Summarizing Similar Alerts CPU Send Summary Alert Summarizer テキスト テキスト CPU CPU fluentdでNagiosアラートの集約 http://6pongi.wordpress.com/2012/06/08/fluentdnagios/12年6月15日金曜日
  21. 21. What is your solution?12年6月15日金曜日

×