Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

План аварийного восстановления данных

3,297 views

Published on

Как писать и как его читать? Какие информационные системы критичны, а какие нет?
В какой последовательности сохранять и восстанавливать данные?
Что такое авария в вашей компании? Как производственные аварии отражаются в ИТ?

План аварийного восстановления данных это не готовый к употреблению документ, подходящей любой компании. Это набор методик и опыт консультанов как в сфере информационных технологий, так и сфере оценки рисков производственных систем.

Современная архитектура центров обработки данных, аварийная и предаварийная миграция данных, красная кнопка диспетчера.

Published in: Technology
  • Be the first to comment

План аварийного восстановления данных

  1. 1. План аварийного восстановления Доступность сервисов — непрерывность бизнеса
  2. 2. Вызовы и угрозы информационному обеспечению бизнеса Ошибки пользователей • 90% причин сбоев Сбои ПО и аппаратуры • Активное ИТ оборудование Аварии инженерных систем • Кабельные магистрали, электропитание, кондиционирование и т.д Катастрофы
  3. 3. Потеря доступности информационных сервисов и потеря части данных ведет к: – Финансовые потерям – Потери репутации – Закрытие бизнеса Последствия для бизнеса
  4. 4. Анализ рисков. Управление рисками. • Классификация, анализ, управление Разработка плана обеспечения непрерывности бизнеса • Создание групп обеспечения непрерывности бизнеса (организационное и техническое обеспечение) Классификация информационных систем • Проведение обследования, выработка критериев, классификация Разработка плана аварийного восстановления • Организационные меры, инструкции, регламенты Важно! Тестирование и поддержка планов в актуальном состоянии Как избежать потерь в организации
  5. 5. Ясная картина воздействия сбоев на бизнес • В первую очередь понимание финансовых последствий • Определение размера капитала под риском Гарантированное время восстановления бизнес-сервисов за определенное время • SLA в части восстановления информационных служб Минимизация ущерба • За счет управления рисками Обоснование затрат на ИТ с точки зрения минимизации ущерба для бизнеса Что будет в результате?
  6. 6. Риск = вероятность * ущерб Методы оценки вероятности: • Статистические • Вероятностно-статистические • Теоретико-вероятностные • Экспертные Методология управления рисками. Оценка вероятности.
  7. 7. Методология управления рисками. Действия. Принять риск • Согласиться Передать ответственность • Застраховать риск, передать субподрядчику Отказаться от риска • Прекратить рисковую деятельность Снизить риск • Принять меры Вероятность Низкая Высокая Потери Высокие Снизить Застраховать Средние риски Снизить Высокие риски Низкие Принять Низкие риски Отказаться Снизить Средние риски
  8. 8. Стандарты в оценке и управлении рисками ГОСТ Р 51901.1-2002. Менеджмент риска. Анализ риска технологических систем Методологии оценки и управления рисками ассоциации русского общества управления рисками “РусРиск” (член FERMA)
  9. 9. Классификация информационных систем Классы информационных систем: – Высокой критичности для бизнеса – Средней критичности для бизнеса – Низкой критичности для бизнеса Методы классификации: – По ущербу от простоя – По количеству пользователей – По формализованному максимальному времени недоступности
  10. 10. Зависимости информационных систем Зависимости бизнес-приложений: • Друг от друга • От инфраструктурных систем Методы классификации инфраструктурных систем: • По ущербу от простоя • По количеству пользователей • По воздействию на бизнес-приложения
  11. 11. Результат классификации систем Главный результат классификации информационных систем - определение порядка восстановления инфраструктурных и прикладных систем
  12. 12. Состав плана обеспечения непрерывности бизнеса Оценка воздействия на бизнес Деятельность компании в чрезвычайной ситуации Поддержание готовности к обеспечению непрерывности бизнеса Информационное обеспечение Техническое обеспечение
  13. 13. Состав плана аварийного восстановления (ПАВ) План аварийного восстановления — часть плана обеспечения непрерывности бизнеса Список и характеристики технических средств: • Серверы • Системы хранения данных • Сети хранения и передачи данных • Виртуальные машины Размещение критических сервисов на технических средствах Описание бизнес- и технологических процессов с точки зрения использования информационных сервисов Порядок восстановления информационных систем Роли процесса восстановления. Ролевые инструкции. Процедуры восстановления информационных систем
  14. 14. ПАВ. Используемые документы. Политики резервного копирования Определение RTO, RPO, общего времени восстановления сервиса Инструкции по использованию средств резервного копирования Инструкции по использованию средств репликации данных и кластеров высокой готовности Руководства администраторов по прикладным и инфраструктурным системам Эксплуатационная документация на системы: • Планы и чертежи расположения оборудования • Таблицы соединений и подключений • Описания КТС • Другая документация
  15. 15. ПАВ. Техническое обеспечение. Система мониторинга критически важных бизнес- приложений (Open Ki): Определение текущего состояния приложения: • Работает • Не работает • Работает без резервирования Определение текущего положения приложения при условии наличия нескольких ЦОД Определение работоспособности приложения с учетом зависимости от ресурсов аппаратных средств Гибко настраиваемые алгоритмы Возможность добавления специфических модулей мониторинга Возможность работы по различным протоколам: SNMP, ICMP, CLI, SQL и др.
  16. 16. Пример окна мониторинга Open Ki
  17. 17. ПАВ. Процедуры тестирования и поддержки в актуальном состоянии Нет периодического тестирования — нет актуального плана • Рекомендуется проведение тестирование плана восстановления один раз в полгода Изменения в структуре систем отражаются в ПАВ периодически и при наступлении важных событий • Изменение конфигурации ИТ-приложений и инфраструктуры, проводимые в рамках проектов отражаются в плане Создание тестового ландшафта • Тестовый ландшафт позволит осуществлять тестирование ПАВ без нарушения функционирования критически важных ИТ систем
  18. 18. Результаты разработки плана аварийного восстановления Оценены и снижены риски нарушения непрерывности бизнеса из-за сбоев ИТ-систем Созданы регламенты и инструкции для восстановления функционирования ИТ-систем обслуживающим персоналом Внедрена система мониторинга работоспособности критически важных бизнес-систем Внедрена процедура поддержания ПАВ в актуальном состоянии при изменении конфигурации ИТ-систем
  19. 19. Спасибо за внимание!

×