1. 5та Национална конференция
ТЕЛЕКОМУНИКАЦИОННИ ТЕХНОЛОГИИ И УСЛУГИ ЗА БИЗНЕСА
2 април 2008 г.
ТЕХНОЛОГИИ ЗА ОПЕРИРАНЕ ПРИ КРИЗИ И АВАРИИ
Николай Димитров, CIA, CCSA
Старши вътрешен одитор
Петрол Холдинг АД
2. Понятия
Възстановяване след сривове и аварии
• Процес на възстановяване на (по възможност) пълната
функционалност на бизнес процесите и системите след
кризи, бедствия, сривове и аварии
Планиране възстановяването след сривове и аварии
• Дейност на ръководството, свързана с определянето на
необходимите действия за възстановяване на бизнеса и
системите и управление изпълнението на тези действия
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 2
3. Възстановяване след сривове, кризи
и аварии - цели
Опазване живота и сигурността на служителите и външните
лица
Минимизиране на непосредствените щети и загуби в
следствие на аварии
Обезпечаване своевременното възстановяване на
работната среда и съоръженията
Обезпечаване възобновяването на критичните бизнес
процеси
Обучаване на ключовите служители от екипа за действие
при бедствия и аварии
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 3
4. Планиране за възстановяване след
сривове и аварии
Иницииране на проект за изготвяне на план
• Намерете спонсор и средства
Оценка на приложимите рискове
Оценка на въздействието им върху бизнеса
Изготвяне на стратегия за тяхното управление
Изготвяне на план за възстановяване
Обучение на служителите и периодично тестване на
плана
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 4
5. Неблагоприятни събития, водещи
до сривове и аварии (1/2)
Природни
– Силни снеговалежи
– Продължителни
дъждове, наводнения
– Силни ветрове
– Високи температури
– Пожари
– Земетресения Сеизмична активност в България за периода
1 ноември 2006 – 31 октомври 2007 година
– Свличания на земни в брой събития за единица време на площ от 100 km2
маси Източник:
Изследване на Геофизичния институт на БАН
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 5
6. Неблагоприятни събития, водещи
до сривове и аварии (2/2)
Човешки фактор Инфраструктурни и
– Вандалщина, тероризъм технологични
– Експлозии, индустриални – Смущения в захранването
пожари – Прекъснати
комуникационни трасета
– Кибер атаки
– Неподходящо охлаждане
– Бунтове, демонстрации, и влажност в
стачки помещенията с
– Кражби и увреждане на оборудването
активи – Дефектирали компоненти
– Небрежност, – Програмни грешки
некомпетентност
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 6
7. Последствия от неадекватно
управлявани рискове (1/2)
Увеличаване на щетите (вкл. човешки жертви) заради
паника на служителите и неподготвеност за действие в
случай на бедствия и аварии
Санкции за несъответствие с приложимото законодателство
(напр. мерки за противопожарна охрана)
Неспособност за бърза реакция поради неидентифицирани
и неразпределени отговорности между служителите
Загуби от престой, заради неяснота кои процеси са
критични и трябва да бъдат възстановени първи
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 7
8. Последствия от неадекватно
управлявани рискове (2/2)
Унищожени или загубени данни (CDR, билинг) и активи
Загуба доверието на бизнес партньорите
Загуба на клиенти и приход
Пропуснати ползи от незастраховане на активи
Продължителна неработоспособност на организацията
заради липса или късно осигуряване на резервни мощности
Неспособност за изпълнение на плана заради остарели и
неприложими процедури
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 8
9. Показатели за оценка на технологично
решение за възстановяване след аварии
Последен архив, или Настъпва бедствие или Системите са
момент, към който авария възстановени
данните са използваеми
Време
Recovery Point Колко назад? Колко дълго? Recovery Time
Objective Objective
RTO – Максимално допустимия downtime след срива, в
рамките на който трябва да бъдат възстановени системите
и процесите
RPO – Най-ранният момент във времето, към който трябва
да бъдат възстановени системите и процесите
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 9
10. Споразумения за параметрите на предоставяните
услуги (Service Level Agreements, SLA)
SLA предвижда действия Потребителите забелязват Системите функционират
Нищо не работи смущения и влошаване
за възстановяване
качеството на услугите
Функционалност
0% 100%
“Дупката” може да е голяма
заради стремежа (целите) за
ограничаване на разходите
Кога задействаме Плана за възстановяване?
• При незначителни прекъсвания – изисквания за “висока степен
на достъпност на услугите” (High Availability)
• При съществени прекъсвания – изисквания за задействане на
План за възстановяване
• Обявяване на бедствие – част от процедурите за ескалация
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 10
11. Сценарии за сривове и
категоризация на действията
• Сриване на сървър Несъществено прекъсване
• Operating System panic покрива “нормалните дейности”
• Загуба на данни вследствие на Изисква Висока степен на достъпност
потребителска грешка SLA параметри:
Достъпност: 99,99%
Честота: 2 инцидента за 3 месеца
Прекъсване: макс. 15 мин. на инцидент
• Софтуерна грешка води до увреждане на
Съществено прекъсване*, “бедствие”
данните
Изисква Дейности по възстановяване
• Природно бедствие унищожава
RTO: 1 час
сървър(ите)
RPO: 8 часа
• Авария уврежда сървърно помещение
Време за възстановяване на услугите: 2 седмици
• Загуба на данни вследствие на
грешка на системен администратор
•Отказ от сработване на резервно * Срив, водещ до неспособност да се възстанови достъпността и качеството
на осигуряваните ІТ услуги за потребителите в рамките на “изискванията
оборудване за достъпност” в SLA
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 11
12. Архитектури за минимизиране на
последиците от сривове и аварии (1/2)
Основни и резервни центрове за обработка
• Собствен резервен център
• “Реципрочни” споразумения за ползване на център на друга
компания
• Outsourcing
Синхронизация на системите в двата центъра
Споделени системи, Hot & Cold Sites
• Hot – напълно конфигуриран център, готов за ползване до час
• Cold – Hot Site без оборудване, готов за ползване при
инсталирането му
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 12
13. Архитектури за минимизиране на
последиците от сривове и аварии (2/2)
Мобилен изчислителен
център
Мобилни офиси
Други изчислителни
центрове на
организацията
(Enterprise co-location)
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 13
14. Disaster-tolerant архитектури
Географска отдалеченост
• Campus/ Metro/ Continental клъстери
− Клъстер: Група от свързани устройства, работеща като една цяла,
скалируема и високонадеждна система
Off-line & on-line репликация на данните
• User-level, Software-based, Database, Disk Subsystem
Резервираност на захранването и HVAC (heating,
ventilation, air-conditioning) системите
Надеждни и с достатъчен капацитет комуникационни
линии
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 14
15. Клъстерна архитектура (1/3)
Асиметрична дву-нодова Симетрична дву-нодова
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 15
16. Клъстерна архитектура (2/3)
SAN-базиран клъстер с
“any-to-any” failover
режим
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 16
17. Клъстерна архитектура (2/3)
Географски отдалечени
клъстери
5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 17