Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

MathOps или математика в мониторинге / Павел Труханов (okmeter.io)

379 views

Published on

РИТ++ 2017, Root Conf
Зал Конгресс-холл, 6 июня, 14:00

Тезисы:
http://rootconf.ru/2017/abstracts/2725.html

Мониторинг — это и cpu usage, iowait, load average, и времена ответа сайта и отдельных сервисов.

Тайминги ответа — среднее по всем запросам? Нет, подайте лучше медиану, а то и 99-перцентиль!

Но что такое перцентиль? Посмотрим в википедии и всё поймём! Не совсем.
...

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

MathOps или математика в мониторинге / Павел Труханов (okmeter.io)

  1. 1. MathOps или математика в мониторинге Павел Труханов okmeter.io
  2. 2. Чем вызван этот доклад
  3. 3. Системы массового обслуживания
  4. 4. События — время и статус ответа Что мы делаем с этими событиями Мониторим — контроль по порогам, что всё хорошо Графики — для наглядности операторам
  5. 5. Графики
  6. 6. Графики
  7. 7. Как сделать график?
  8. 8. Как сделать график? Из 10 или 100 или 1000 событий за интервал
  9. 9. Как сделать график? Из 10 или 100 или 1000 событий за интервал С разными типами С разными таймингами С разным результатом
  10. 10. 1000 таймингов — что с ними делать?
  11. 11. 1000 таймингов — что с ними делать? Плотность распределения
  12. 12. 1000 таймингов — что с ними делать? Плотность распределения Функция распределения
  13. 13. 1000 таймингов
  14. 14. 1000 таймингов
  15. 15. 1000 таймингов
  16. 16. 1000 таймингов — каждую минуту
  17. 17. 1000 таймингов — каждую минуту
  18. 18. 1000 таймингов — каждую минуту
  19. 19. 1000 таймингов — каждую минуту
  20. 20. 1000 таймингов — каждую минуту! 1000 таймингов — каждую минуту!
  21. 21. 1000 таймингов Что с ними делать? Взять статистику!
  22. 22. 1000 таймингов — ура, график!
  23. 23. Угадай статистику — чему равно среднее? • 100 • 150 • 200 • 250 • 300 • 350
  24. 24. Угадай статистику — чему равно среднее? avg
  25. 25. Угадай статистику — чему равно среднее? • 200 • 250 • 300 • 350 • 400
  26. 26. Угадай статистику — чему равно среднее? avg
  27. 27. Угадай статистику — чему равно среднее? avg
  28. 28. Почему не среднее Физический смысл Робастность к выбросам
  29. 29. Почему не среднее Физический смысл Робастность к выбросам
  30. 30. 1. Узнать как ведет себя система в “норме” 2. Выбрать пороги 3. Мониторить, алертить 4. … 5. PROFIT
  31. 31. Как ведёт себя система “в норме” avg
  32. 32. avg Как ведёт себя система “в норме” p50
  33. 33. avg Угадай p90 p50 • 300 • 350 • 400 • 450 • 500 • 550 • 600
  34. 34. avg Как ведёт себя система “в норме” p50 p90 • 300 • 350 • 400 • 450 • 500 • 550
  35. 35. Угадай p90 avg • 300 • 350 • 400 • 450 • 500 • 550
  36. 36. Угадай p90 p90avg • 300 • 350 • 400 • 450 • 500 • 550 • 600 • 650
  37. 37. p95? p90avg • 800 • 900?
  38. 38. p95? p95 • 1100 p90avg
  39. 39. Угадай перцентиль p95
  40. 40. Угадай перцентиль p95
  41. 41. Угадай перцентиль p95
  42. 42. Угадай перцентиль p95 p90
  43. 43. Угадай перцентиль p95 p90 p95
  44. 44. Мониторинг — SLA / SLO / SLi Например, P95 < 55мс
  45. 45. p90
  46. 46. Мониторинг — SLA / SLO / SLi p95 < 55мс p75 < 15мс p50 < 10мс
  47. 47. Мониторинг — SLA / SLO / SLi p95 < 50мс + p75 < 15мс 0 75 95 60 30 0
  48. 48. avg p50 p90 p95
  49. 49. Где на самом деле эти 5% ? p95
  50. 50. Где на самом деле эти 5% ? p95
  51. 51. p90% p95% p99% p99.9% ???
  52. 52. p90% p95% p99% p99.9% — МАЛОВАТО ???
  53. 53. Как на самом деле “находят” p9X
  54. 54. Как на самом деле “находят” p9X
  55. 55. Как на самом деле “находят” p9X
  56. 56. Как на самом деле “находят” p9X
  57. 57. Как на самом деле “находят” p9X
  58. 58. Что произошло
  59. 59. Как так? 8ч 1д
  60. 60. А как же пользователи? • Сессии длятся долго • Общее впечатление об отзывчивости сервиса • Один плохой response time сильно влияет • Важные ajax’ы и прочие ресурсы
  61. 61. Вероятность одной страницы быть лучше чем p99 = 99% =) Вероятность N страницам быть не хуже p99 = (0.99 ^ N) * 100% % пользователей которые наткнутся на что-то хуже p99 = (1 - (0.99 ^ N)) * 100% Для N = 10 это 10% Для p99.9 это 1%
  62. 62. Не доверяйте интуиции в статистике Every statistician ever.
  63. 63. Павел Труханов okmeter.io

×