Reducing Noisy Nagios Alerts

5,864 views
5,646 views

Published on

Published in: Technology, Design
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
5,864
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
25
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Reducing Noisy Nagios Alerts

  1. 1. Reducing Noisy Alerts from Nagios Monitoring Casual Talk #1 Takumi SAKAMOTO @takus12年6月15日金曜日
  2. 2. Self Introduction • Takumi SAKAMOTO • @takus • DeNA Co., Ltd. (2012.4 ~) • Operation Engineer ?12年6月15日金曜日
  3. 3. Before Joining DeNA12年6月15日金曜日
  4. 4. My365 A Photo Sharing SNS12年6月15日金曜日
  5. 5. 12年6月15日金曜日
  6. 6. < 20 Servers12年6月15日金曜日
  7. 7. After Joining DeNA12年6月15日金曜日
  8. 8. Mobage12年6月15日金曜日
  9. 9. > 1000 Servers12年6月15日金曜日
  10. 10. What’s the Difference?12年6月15日金曜日
  11. 11. Someone Said That ... • What happens once in every million times happens 3500 times per day http://blog.nomadscafe.jp/2011/05/post-12.html12年6月15日金曜日
  12. 12. In the Context of Nagios ... (Photo : Postal Loathing by justin) http://www.flickr.com/photos/justin/2412778/12年6月15日金曜日
  13. 13. Too Many Alert Mails • Problems • continue to call our mobile phone • sometimes hide more important alerts • burden mail systems12年6月15日金曜日
  14. 14. How to Reduce Unnecessary Alerts12年6月15日金曜日
  15. 15. #1: Defining Service Dependencies • Approach • whatever you use for monitoring remote host status, the status depend on what you use for monitoring • e.g. SNMP, NRPE, SSH ... • define service dependencies between parent service and child services12年6月15日金曜日
  16. 16. Consider Simple Case 1 • Your nagios monitors remote hosts via SNMP • CPU, DISK, NTP, MEMORY • all services are OK CPU DISK Nagios SNMP NTP MEMORY Remote Host12年6月15日金曜日
  17. 17. Consider Simple Case 2 • Nagios sometimes fails to check status by SNMP because of high server load • In this case, nagios evaluates all service status are UNKNOWN and sends us 4 alert mails CPU ??? DISK Nagios SNMP NTP MEMORY Remote Host12年6月15日金曜日
  18. 18. Consider Simple Case 3 • If many servers become over-loaded once, nagios sends us a lot of noisy alert mails • because it is obvious that SNMP doesn’t work well12年6月15日金曜日
  19. 19. Defining SNMP Service Dependencies • Nagios stop to send alert mail if SNMP returns UNKNOWN • you will receive only a SNMP CRITICAL alerts define servicedependency { dependent_host_name host1 dependent_service_description CPU,DISK,MEMORY,NTP host_name host1 service_description SNMP notification_failure_criteria u }12年6月15日金曜日
  20. 20. #2: Summarizing Similar Alerts CPU Send Summary Alert Summarizer テキスト テキスト CPU CPU fluentdでNagiosアラートの集約 http://6pongi.wordpress.com/2012/06/08/fluentdnagios/12年6月15日金曜日
  21. 21. What is your solution?12年6月15日金曜日

×