Методика определения неиспользуемых ресурсов виртуальных машин и автоматизация действий с ними

Методика
определения неоптимально используемых ресурсов
Мирошниченко Дмитрий
Инженер по автоматизации
dmiroshnichenko@ptsecurity.com

Как появилась идея

История проблемы
2012 2015 2016 2017
История

Проблемы
Завис сервис
Не стартует VM
Сборочный сервер тормозит
Кончилось место на сторе
ПричинаПроблема
Disk, CPU, MEM
Disk
CPU, MEM
Disk

Цель разработки Методики
1. Решить проблему постоянной нехватки ресурсов
инфраструктуры R&D не путем наращивания
машинных ресурсов, а оптимизацией потребления
этих ресурсов
2. Подтвердить гипотезу, что значительная часть
данных ресурсов используется неоптимально

DoD
1. Сформулированы критерии неоптимальности
использования ресурсов
2. Разработана методика определения неиспользуемых
ресурсов инфраструктруры, без необходимости ручных
действий
3. Разработан скрипт, реализующий эту методику, который
можно передать вне отдела DevOps

Инфраструктура
HW
HW
HW
Clouds
• Двадцать команд
• Десятки проектов
• Тысячи VM

Первичная оптимизация
• Рассылка сообщений в команде
• Ручная отпимизация

Первичный анализ
•VMware operations manager
•OpenStack

Метрики
•Owner
•TTL
•TTL Action
•ESX_swap
•Snapshot_count
•CPU_usage_avg
•MEM_usage_avg
•Disk_type

TTL
TTL — дата, по достижению которой с VM производится
действие
Требуемые значения: ISO 8601 (Basic) или -1
Пример: 20171030
Триггер: выполняем действие из TTL Action
Несоответствие требуемым значениям: отправляем письмо
owner'у
TTL

TTL Action
TTL Action — действие, которое производится с VM по
достижению даты в TTL
Требуемые значения: ключевые слова
Пример — выключение: shutdown || halt
Пример — удаление: remove || delete || destroy
Пример — перемещение: archive || mv
Триггер: вспомогательный атрибут
owner'у

Owner
Owner — владелец или ответственный за VM
Требуемые значения: имя доменной учетки или
группа рассылки, допустимо несколько значений
Пример — dmiroshnichenko || isimqa; knikolaev
Триггер: вспомогательный атрибут
Несоответствие требуемым значениям: контактируем с
лидами и находим исполнителя который заполнит значения 

ESX_swap
ESX_swap — объем памяти, которую Vmkernel перевел на диск
Требуемое значение: 0 MB
Триггер: превышение требуемого значения
Несоответствие требуемому значению: отправляем письмо
owner'у. Перезагружаем/выключаем ВМ

Snapshot_count
Snapshot_count — число снапшотов у VM
Требуемое значение: 0
Триггер: превышение требуемого значения
Несоответствие требуемому значению: отправляем письмо
owner'у с просьбой удалить снапшоты

CPU_usage_avg & MEM_usage_avg
*_usage_avg — cреднее значение по загрузке за 4 часа
Рекомендованные значения: загрузка > 60%
Триггер: превышение рекомендованного значения
Несоответствие рекомендованным значениям: оповещаем
owner'а о чрезмерном потреблении ресурсов

Disk_type
Disk_type — тип диска
Требуемые значения: Thick Provision Lazy/Eager Zeroed
Триггер: превышение допустимого значения
owner'у с просьбой конвертировать диск и количеством
«неправильных» дисков

Данные: создаем и наполняем

Zabbix
•Items
•Triggers
•Logic

Положительные результаты
• DoD достигнут: критерии неоптимальности определены,
методика и скрипты разработаны
• Переходим на парадигму Infrastructure as Code
• Единые сборочные пулы
• Навели порядок и сэкономили 
• Приблизились к созданию единого ресурсного пула

Единый вычислительный пул
HW
HW
HW
Clouds

Что не получилось
•Disk_type
•CPU_usage_avg
•MEM_usage_avg

CPU_usage_avg & MEM_usage_avg
Как представляли:

Планы
• Построение цикла жизни VM
• Дополнительные проверки перед созданием VM
• Агрегация VM по Load class
• UI
• Оповещения об «осиротевших» VM

Спасибо!
Вопросы?
Мирошниченко Дмитрий
Инженер по автоматизации
dmiroshnichenko@ptsecurity.com

Методика определения неиспользуемых ресурсов виртуальных машин и автоматизация действий с ними

More Related Content

What's hot

More from Positive Hack Days

Методика определения неиспользуемых ресурсов виртуальных машин и автоматизация действий с ними

Editor's Notes