Реальность управления виртуальной инфраструктурой VMware vCenter Operations

25,137 views

Published on

Презентация Александра Пыльнева, консультанта по решениям VMware, на тему мониторинга инфраструктуры VMware vCenter Operations Standard

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
25,137
On SlideShare
0
From Embeds
0
Number of Embeds
23,216
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Реальность управления виртуальной инфраструктурой VMware vCenter Operations

  1. 1. Пообщаться со специалистами можно в окне «Chat» Пожалуйста, задавайте своивопросы в окне «Q&A» © 2010 VMware Inc. All rights reserved
  2. 2. Реальность управления виртуальнойинфраструктуройVMware vCenter Operations StandardКонсультант по решениям Александр Пыльнев, apylnev@vmware.com © 2010 VMware Inc. All rights reserved
  3. 3. Программа Проблемы управления виртуальной средой Новый подход к управлению – интеллектуальная система анализа vCO Смещение фокуса на бизнес-приложения и сервисы – от состояния инфраструктуры к состоянию приложений Архитектура и развёртывание vCO Демонстрация работы vCO3
  4. 4. Проблемы управления виртуальной средой4
  5. 5. Если бы Вы могли… Автоматизация • Ускорить процесс поиска и исправления проблем Корреляция и эскалация • Быстрый поиск истоков проблем с производительностью Проактивная реакция • Предугадать появление проблем производительности для бизнес-задач Агрегация • Комплексный системный подход к анализу проблем Оптимизация • Настройка компонентов для достижения лучших показателей5
  6. 6. Зачем нужен именно vCO ? 80% времени администратор ищет причину возникновения проблем производительности • 1-е поколение систем – «светофор» статические метки сложно интерпретировать и настраивать • Внимание на события, а не на комплекс проблем Основные задачи администратора • Увеличение ROI путём повышения плотности размещения ВМ • Гарантировать наличие необходимых ресурсов для работы бизнес-задач • Гарантировать высокую эффективность работы виртуальной среды для бизнес- задач 6
  7. 7. Эволюция средств управления - 1-е поколение систем мониторинга 1-е поколение – Сосредоточено на событиях, жёстко заданные рамки 3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/a 3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System 3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_System 3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_System 3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/aDATA FEEDS 3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF OracleDATA FEEDS 3/4/08 14:40 n/a responseTimeServ… The Response Time Service Level on Siebel Sa.. n/a n/a n/a 3/4/08 14:20 n/a processingTimeServ.. The Processing Time Service Level on Siebel S. n/a n/a n/a 3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 6780)’: is cons.. n/a 0 Windows_SystemDATA FEEDS 3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 7940)’: is cons.. n/a 0 Windows_System 3/4/08 14:15 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/aDATA FEEDS 3/4/08 14:15 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a 3/4/08 13:55 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle 3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/a 3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System 3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_System 3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_System 3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a 3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle 7 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF Oracle
  8. 8. Эволюция средств управления - 2-е поколение систем мониторинга 2-е поколение – Рудиментарные правила, графики и шаблоны событий 3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/a 3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System 3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_SystemDATA FEEDS 3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_System 3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a 3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF Oracle 3/4/08 14:40 n/a responseTimeServ… The Response Time Service Level on Siebel Sa.. n/a n/a n/a 3/4/08 14:20 n/a processingTimeServ.. The Processing Time Service Level on Siebel S. n/a n/a n/aDATA FEEDS 3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 6780)’: is cons.. n/a 0 Windows_System 3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 7940)’: is cons.. n/a 0 Windows_System 3/4/08 14:15 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a 3/4/08 14:15 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a 3/4/08 13:55 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle 3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/aDATA FEEDS 3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System 3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_System 3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_SystemDATA FEEDS 3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a 3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle 3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF Oracle 8
  9. 9. Недостатки традиционного подхода к мониторингу Большое количество разрозненных плохо структурированных данных Низкая скорость реакции на изменяющуюся динамику работы компонентов Отсутствие средств для комплексного анализа информации, корреляции данных из разных источников Высокое количество ложных срабатываний: трудности при поиске истинных проблем в системе9
  10. 10. Новый подход к управлению виртуальной средой10
  11. 11. VMware - Мониторинг производительности в режимереального времени 3-е поколение – единый инструмент анализа в режиме реального времени Гибкая ИНТЕГРАЦИЯ с разными источниками данных Я могу могу объединить Масштабируемость все системы мониторинга в одну и получить целостную картину производительности. Алгоритмы анализа информации о производительности Удобный интерфейс со всей необходимой информацией11
  12. 12. vCenter Operations 3-е Поколение систем – аналогия Slide 12 Мониторинг серверов O/S s – CPU, RAM, Disk, I/O, etc. Мышцы Кости Кровообращение Нервы Мониторинг приложений – JVM, DB подключения, и т.д. Дыхание Сердечный Температура ритм Мониторинг пользовательских Мониторинг бизнес- метрик приложений vCenter Operations vCenter Operations обрабатывает тысячи показателей моей инфраструктуры, что я Мозг понимает состояние моего тела, что я должен делать, если. должен делать, если. vCenter Operations знает, в чём проблема: Мой мозг знает, что делать: Ответ на изменения в режиме реального времени  Мой сердечный ритм и температура повышаются  Действия при изменении динамики в разрезе – обратиться к врачу! времени  Сильно устаю – больше отдыхать!  Мало устаю – больше работать!12
  13. 13. Источники данных Широкая поддержка внешних источников данных • HP Open View, BAC • Oracle Enterprise Manager • EMC Ionix • Microsoft MOM/SCOM 2005/2007 • SAP CCMS vCenter • Cacti/MRTG Operations • SNMP, Perl и т.д Минимальные требования к данным • Имя объекта, имя метрики, значение, время Сбор данных • Сбор данных – никакой аналитики для запросов! • Анализ данных и их корреляцию делает vCO13
  14. 14. Самообучение – что такое нормальное состояние системыи отклонения от него Серая метка Верхнее и нижнее отклонение от нормы Синий график Текущее значение показателя Красная метка Отклонение от нормы  Интеллектуальная система анализа – 8 различных алгоритмов  Изучение динамики нормального состояния без шаблонов  Изучение примеров поведения среды и идентификация отклонений от нормы14
  15. 15. Проактивное оповещение и предупреждение Пользователи (RUM, и т.д.) Приложения ( Wily, и т.д.) Бизнес-приложения Smart Alert Generation (“Когда”) ! SMART ALERT Сетевая инфраструктура СХД (Quest, и т.д.) (Ionix IPPM, и т.д..) Показатели приложений(Finance)15
  16. 16. VMware vCenter Operations Standard Basics Простой и быстрый способ определить проблемы производительности Простота использования • Интеграция с панелью управления vCenter • Интуитивно понятное графическое управление и анализ возникающих проблем • Автоматический сбор данных из vCenter • Информация о производительности, топологии, изменениях в конфигурации и событиях VMware vCenter Operations Standard – значение для бизнеса • Увеличение производительности для бизнес-задач, приложений и сервисов • Снижение стоимости инфраструктуры повышением плотности размещения VM • Снижение затрат на администрирование и оптимизацию инфраструктуры16
  17. 17. Ближе к пониманию Вашей виртуальной среды- Workload Показатели Workload • Отношение текущих и используемых ресурсов • Низкий показатель – объект имеет все необходимые ресурсы • При превышении 100% - ресурсов недостаточно Компоненты Workload • CPU • Network I/O • Storage I/O • Memory (ВМ и ESX-узла) Значение показателей Workload • Детальный анализ и понимание проблем с недостатком ресурсов • Обзор состояния объектов и их компонентов • Это типичная проблема? • Проблемы в настройках? • Следует выполнить миграцию • Недостаток ресурсов? ВМ? • Виртуальная инфраструктура в порядке. Это проблема приложения или ОС?17
  18. 18. Ближе к пониманию Вашей виртуальной среды - Health Показатель HealthОценка нормального поведения объекта: 0-100 (чем выше –тем меньше отклонение) • Изучение динамики изменения нормального состояния для каждой метрики Важно • Изучение нормального поведения объекта и идентификация отклонений Низкое значение показателя Health • Чем ниже значение, тем сильнее отклонение говорит об Как только проблема обнаружена отклонении от • Единая точка обзора состояния компонента и указания нормы в работе отклонений отслеживаемого • Выделение ключевой причины возникновения отклонений объекта • Нет необходимости оценивать множество метрик и показателей различных компонентов всей системы Показатели Health и Workload – полная информация о Вашей инфраструктуре 18
  19. 19. Ближе к пониманию Вашей виртуальной среды - Capacity  Показатель Capacity – ёмкость ресурсов Как долго у Вас будет достаточно ресурсов для работы бизнес- задач и приложений? • Шкала 0-100 – Чем выше значение, тем больше у Вас времени • Возможность самостоятельно настроить оповещения • Осталось 30 дней = RED • Осталось 60 = Orange  Составные компоненты Capacity • CPU • Network I/O • Storage I/O • Memory  О чём говорит метрика Capacity • Отражение динамики потребления ресурсов • Текущее состояние ресурсов • Планирование затрат на инфраструктуру и оценка времени до обновления19
  20. 20. Смещение фокуса на мониторинг бизнес-задач и приложений20
  21. 21. Простой взгляд на сложную систему • Нет единой точки обзора системы • Единая точка обзора состояния • Невозможно оценить состояние всех • Консолидация данных компонентов • Фильтры поиска состояний • Пересечение потоков информации, разрозненность данных До После • Единая точка мониторинга виртуальной инфраструктуры • Простота использования • Визуализация данных • Отображение только важной информации.21
  22. 22. Снижение сложности Slide 22 • Разрозненные системы и • Единая метрика состояния показатели скрывают состояние отслеживаемых объектов– Health системы а целом • Автоматическая агрегация, • Слишком много информации, оценка, анализ более 100 показателей и консолидация в показателей единые показатели – Health and • Преднастройка показателей сбоев Workload • Impossible to understand health of elements До После • Снижение сложности использования средств управления • Ускорение решения проблем • Больше возможностей для анализа проблем22
  23. 23. Оценка правильного состояния инфраструктуры Slide 23 • Невозможно охарактеризовать • Оценка и качественная статические метрики характеристика показателей • 65% потребления ресурсов – это • Изучение поведения нормально – в час, день, неделю? инфраструктуры • Это симптом будущих проблем? До После • Качественная оценка метрик и состояний в разрезе времени • Легкость планирования потребления и использования ресурсов в будущем23
  24. 24. Оптимизация работы задач и приложений Slide 24 • VC не сохраняет профили данных о • Оценка и сохранение профилей производительности ВМ производительности узлов ESX • Набор необработанных «сырых» • Увеличение плотности размещения данных, сложность виртуальных машин • Ensure smooth, consistent use of resources До После • Увеличение плотности размещения ВМ • Оптимизация использования ресурсов • Увеличение эффективности использования ресурсов24
  25. 25. Влияние изменений на состояние инфраструктуры Slide 25 • Внесение изменений в настройку • Внесение изменений отражаются виртуальной среды - обычная работа на показателях состояния среды администратора • Наглядность влияния изменений на • Изменения могут повлиять на поведение виртуальной среды производительность приложений До После • Мгновенное отражение и учёт внесённых изменений • Визуализация состояния компонентов • Администратор может сразу же оценить последствия внесённых изменений25
  26. 26. Многоуровневый анализ состояния Slide 26 • Какие из узлов кластера имеют • Наглядная визуализация более чем высокую загрузку процессора и 100 метрик и показателей работы виртуальной среды низкое потребление оперативной памяти? До После • Взаимосвязь состояния бизнес-приложений и инфраструктуры • Наглядное и подробное отображение структурированных данных26
  27. 27. Фокус на ключевые проблемы производительностиприложений Smart Alert (“Что происходит”) Проблемы производительности связаны с прлиложением БД Метрики состояния приложения - Начальная точка анализа27
  28. 28. Архитектура и развёртывание vCenter Operations28
  29. 29. Архитектура vCenter Operations Standard Четыре ключевых сервиса: Collector, Analytics, Web, ActiveMQ Архитектура включает в себя  PostgresSQL DB  File-based DB (FSDB) for raw metric storage Единый коллектор информации 29
  30. 30. Логика работы vCenter Operations Standard 3: Входящие данные анализируются и сравниваются Аналитика данных 2a: динамическими выполняется каждый значениями, день для выработки вычисляются метрики 4: Results provided рекомендаций (DT) на Health, Workload and to UI: Update 1aСбор данных – метрики, день Capacity “Badges”, provide топология, изменения Root Cause for конфигурации Health scores, etc. 2c: Динамические значения 2b: База анализируется сохраняются в 1b: Данные каждый день для PostgresSQL DB сохраняются выработки рекомендаций вFSDB на 24 часа30
  31. 31. Развёртывание VMware vCenter Operations Standard Один vCenter Operations Standard для каждого vCenter До1500 Virtual Machines vCenter Operations Standard в виде виртуальной машины(.ova) • SUSE Linux Enterprise Server 11 SP1 • 8GB RAM • 2 vCPUs • 124 GB Disk (4 GB system disk + 120 GB data disk) Поддерживаемые системы • 4.0, 4.1 • vCenter • vCenter 4.0U2 • vCenter 4.131
  32. 32. Лицензирование vCenter Operations32
  33. 33. Редакции VMware vCenter Operations vCenter Operations Enterprise + Full Configuration & Compliance Management vCenter Operations Advanced + Other VMware & 3rd Party Integrations + Capacity (View, management, servers, storage) Planning vCenter Operations Standard Производитель ность Оценка ёмкости ресурсов Изменения конфигурации vSphere VMware Cloud / vCenter Non-VMware (включая физическое оборудование)33
  34. 34. Лицензирование vCenter Operations Editions vCenter Operations vCenter Operations Enterprise Standard Edition - Stand-Alone Источники данных vCenter x 1 • Any 3rd party monitoring tools’ time series data • Change events • Multiple vCenter ServersПрименимость Объекты vCenter Objects (i.e.) Unlimited Scope (i.e.) • Data Centers • Applications • Clusters • Network Infrastructure • ESX Hosts • Storage • Datastores • Hosts (ESX, Win, Linux, etc) • VMs x 1500 • VMs Пользователи Infrastructure (e.g. VI Operations, Infrastructure, Application Admins) Teams, Business Owners, CxOs Динамические показатели Да Да Ключевые причины Да ДаФункции снижения производительности Проактивный мониторинг Нет Да Настраиваемые отображения Нет Да Уведомления Нет Да 34
  35. 35. Демонстрация работы vCO35
  36. 36. Вопросы36

×