Семинар в Академии информационных систем. Мы рассмотрели схемы надежности инфраструктуры ЦОД tier согласно требованиям стандартов в области ЦОД - Bisci 002-2011, TIA/EIA-942, Uptime Institute. Рассмотрели влияние различных систем друг на друга - охлаждение и электроснабжение.
1. Надежная инфраструктура ЦОД
Дмитрий Мацкевич
консультант и эксперт в области ЦОД
индивидуальный предприниматель
автор интернет проектов
www.DCNT.ru
2. ЦЕНТР ОБРАБОТКИ ДАННЫХ
• ЦОД – сложный комплексный
объект, включающий в себя
архитектурно–технические решения,
инженерные системы, системы хранения
данных, активное сетевое и
телекоммуникационное оборудование,
сервера и другое оборудование
• Отличие серверной от ЦОД, у
серверной чаще всего уже готовое
архитектурное решение (серверная
комната)
в Российских стандартах нет
определения: серверной и ЦОД
Пользуемся западными стандартами
Мацкевич Дмитрий , www.DCNT.ru, 2012
3. Основные требования к ЦОД
• Доступность к ресурсам
(24 часа/ 365 дней)
• Высокая производительность
(небольшое время отклика на запрос)
• Высокая надежность
(резервирование, дублирование данных)
• Безопасность
(физическая, информационная)
• Масштабируемость
(возможность установки
дополнительного оборудования)
• Гибкость
(быстрое переключение, изменение )
Мацкевич Дмитрий , www.DCNT.ru, 2012
4. • Контейнерный ЦОД
(контейнер 20”, 40 ”, 53” и другие форм-факторы)
Не путайте их с модульными дата центрами!
• МиниЦОД - серверные
(площадь менее 24 м2)
• ЦОД
(машинные залы )
• ЦОД
(специализированные здания и сооружения)
4
5. UpTime и коэффициент уровня
готовности
В ИТ системах
IA = System UpTime / (System UpTime + System DownTime)
System UpTime – время работы системы без прерывания
System DownTime – время остановки
IA - коэффициент уровня готовности
В инженерных системах
IA = MTBF / (MTBF+MTTR)
MTBF - время наработки на отказ
MTTR - усредненное время ремонта
Стремимся к IA = 1, однако, это на практике не возможно достичь !
5
Мацкевич Дмитрий , www.DCNT.ru, 2012
6. Расчет коэффициент
уровня готовности
IA = MTBF / (MTBF+MTTR)
MTBF - время наработки на отказ
MTTR - усредненное время ремонта
Время наработки на отказ 5 лет
Среднее время восстановления 4 часа
8760 часов в год
IA = 8760 * 5 / (8760 * 5 + 4 ) = 0,999909
Отличные показатель?
6
Мацкевич Дмитрий , www.DCNT.ru, 2012
7. UpTime – время нахождения системы в рабочем состоянии
UpTime – часто приводят в количестве 9-ок
DownTime – время нахождения системы в нерабочем состоянии
Uptime % DownTime % DownTime в год DownTime в неделю
(8760 час)
98 2 7,3 дня 3 часа 22 минут
99 1 3 дня 39 минут 1 час 41 минута
99,9 00,1 8 часов 45 мин 10 мин 5 сек
99,99 00,01 52 мин 30 сек 1 мин
99,999 00,001 5 мин 15 сек 6 сек
99,9999 00,0001 31,5 сек 0,6 сек
8. Надежность и резервирование
Вероятность выхода из строя системы из 2-ух последовательных элементов
Ps = P1(вероятность выхода из строя элемента 1) + P2 (вероятность выхода из
строя элемента 2)
Например, вероятность выхода системы доступа информации к диску =
Вероятность выхода контроллера диска + Вероятность выхода диска;
Pк+Рд = 0,0001 + 0,0001 = 0,0002
Вероятность выхода из строя системы с резервированием
Ps (вероятность выхода из строя системы) = P1(вероятность выхода из строя 1 элемента) *
P2 (вероятность выхода из строя 2-ого элемента)
Например , два зеркальных диска ; Pд*Pд = 0,0001 * 0,0001=0,0000001
Однако, если у нас контроллер не резервируется, то вероятность выхода
системы хранения данных
Pк+Рд+Рд = 0,0001+ 0,0001 * 0,0001=0,0001001
Выводы
• Чем больше элементов в цепочке, тем меньше надежность
• Не должна быть точка отказа в системе (SPOF)
• Необходимо резервирование компонентов и путей
8
Мацкевич Дмитрий , www.DCNT.ru, 2012
9. Резервирование и требуемый ресурс N (Need)
N: Требуемый объем ресурсов N.
Например, Тб памяти, мощности кВА, кВт охлаждения
N+1: В системе имеется один резервный элемент.
При отключении, ремонте, в некоторых случаях выходе из строя одного из элементов
система не остановит свою работу.
Например, RAID-5 (1 диск дополнительный) или установлен один резервный ИБП.
N+2: Два дополнительных элемента в системе.
Например, RAID-6, 2 диска в резерве или два резервных кондиционера.
Также эта схема позволяет уменьшить количество резервируемых компонентов между двумя
элементами системы (клапаны, автоматические выключатели)
2N: Дублирование компонентов.
Чаще N ресурсов находится в одной подсистеме, N в другой. Чтобы выход даже N ресурсов
не привел к остановке подсистемы.
Например, установлено два дисковые подсистемы (два контроллера) в севере или две группы
ИБП.
2(N+1): Дублирование и внутри каждой подсистемы есть дополнительный элемент при
выходе из строя одного элемента в одной системе и всех элементов другой система в целом
останется работоспособной. Например, используем две системы отделенные друг от друга с
дисковым контроллером с системами RAID-5)
S+S: Подсистема зарезервирована. При выходе из строя всех компонентов из
одной подсистемы будет обеспечена непрерывная работа системы в целом.
Например, установлено две дисковые подсистемы на разных серверах или есть
две подсистемы с ИБП в каждой подсистеме. 9
Мацкевич Дмитрий , www.DCNT.ru, 2012
10. Пример резервирования ресурсов
Требуется
для ИТ оборудования требуется бесперебойное электропитание
мощностью 500 кВА ( 500 кВА это и будет N)
Варианты решения с резервированием
Два ИБП по 500 кВА, 2 х 500 кВА, второй ИБП будет резервным, схема
N+1 (N от слова Need)
Три ИБП по 250 кВА, 2 *250 (N) + 250 (1)
третий ИБП будет резервным, схема N+1
Четыре ИБП по 250 кВА, 2 *250 (N) + 2 *250 (N), схема N+2
Две подсистемы питания, в каждой по одному ИБП на 500 кВА,
схема резервирования N+1= 2N и иногда = S+S
Две подсистемы питания, в каждой по 3 ИБП 250 кВа
Схема резервирования 2 (N+1)
10
Мацкевич Дмитрий , www.DCNT.ru, 2012
11. Состав основных инженерных
систем в ЦОД
• Система энергоснабжения
• Система бесперебойного
электропитания (СБЭ)
• Система резервного электропитания
(СРЭ)
• Система освещения (основного и
аварийного)
• Система кондиционирования и
вентиляции (СКВ)
• Система оповещения
• Система пожаротушения
• Система контроля и управления
доступом (СКУД)
• Система телевизионного наблюдения
• Система контроля и мониторинга
• Система диспетчеризации
• Структурированная кабельная
система (СКС)
• Система кабельных каналов (СКК)
• Система заземления и Много элементов! Много связей !
молниезащиты Взаимное влияние, например,
• Система подготовки воды
• Система дренажа воды
СБЭ -> охлаждение -> СБЭ !
• Система безопасности ИТ и Влияние инженерных подсистем на
физической работу ИТ оборудования !
12. Чтобы надежно работала ИТ инфраструктура,
требуется надежная инженерная инфраструктура
• Инженерная инфраструктура определяет доступность к ресурсам
• Инженерная инфраструктура определяет высокую
производительность
• Инженерная инфраструктура определяет надежность
• Инженерная инфраструктура определяет безопасность
• Инженерная инфраструктура определяет масштабируемость
• Инженерная инфраструктура определяет гибкость
Надежная инженерная инфраструктура – это базис для надежной
работы ИТ систем, поэтому ей необходимо уделить пристальное
внимание
13. Инструкция по проектированию зданий и
сооружений для ЭВМ СН-512-78 ред.2000 года
Мацкевич Дмитрий , www.DCNT.ru, 2012 13
17. Европейский стандарт Code of Conduct
• Cправочный документ,
позволяющий определять и
реализовывать меры по
повышению энергетической
эффективности дата-центров
• Есть критерии для новых,
модернизируемых и построенных
ЦОД и по ним выставляется
оценка (общей оценки ЦОД нет )
• Участники программы -
операторы ЦОД, провайдеры Colo • Критерии выработаны для
услуг, пользователей услуг Colo Зданий,
• Надо заполнить формы электромеханического
• Разные цвета – разные формы, оборудования, ИТ
заполняемые участником оборудования, стоек, ПО, ОС
программы и виртуализация,
Мацкевич Дмитрий , www.DCNT.ru, 2012 17
18. Европейский стандарт Code of Conduct
• Эксплуатация, управление и планирование в дата-центре - Важно
разрабатывать целостную стратегию и методы управления дата-центром. Это
позволит Участнику эффективно обеспечивать надежность, экономические,
эксплуатационные и климатические преимущества
• ИТ-оборудование и сервисы - ИТ-оборудование создает потребность в
электроэнергии и охлаждении в дата-центре, поэтому любое снижение
потребляемой или предоставляемой ИТ-оборудованию энергии и
охлаждающей способности будет иметь повышенное влияние на общее
электроснабжение.
• Охлаждение - Охлаждение зачастую является наиболее энергоемкой
системой в дата-центре, и как таковая она представляет значительные
возможности для повышения эффективности.
• Силовое оборудования
• Прочее оборудование – офисы, склады и т.д.
• Здание дата центра - Размещение и физическая топология здания дата-
центра имеет важное значение для обеспечения гибкости и
эффективности.
Мацкевич Дмитрий , www.DCNT.ru, 2012 18
19. Уровни надежности (tier)
инфраструктуры ЦОД
Стандарт TIA/EIA-942 (UpTime Institute) разделяет на четыре уровня
надежности инфраструктуру ЦОД
Tier 1 (Tier I): Базовый уровень N, нет резервирования.
Tier 2 (Tier II): Избыточные элементы (N+1), пути (каналы, линии,
трубопроводы, трассы) не резервированы, ремонт системы без ее
остановки не возможен
Tier 3 (Tier III): Избыточные элементы N+1 и резервирование путей,
Возможен ремонт и замена оборудования без остановки. Единая точка
отказа может быть.
Tier 4 (Tier IV): Резервирование на уровне 2*N (N при сбое Uptime).
Полностью отказоустойчивая инфраструктура ЦОД, выход из строя
любого элемента из подсистем и любого пути из подсистем в любой
комбинации не приводит к остановке работы.
Подтверждением Tier занимается ТОЛЬКО частная компания
UpTime Institute http://professionalservices.uptimeinstitute.com/tiercert.htm
19
Мацкевич Дмитрий , www.DCNT.ru, 2012
20. Tier инфраструктуры ЦОД
согласно Uptime Institute
Класс Tier I Tier II Tier III Tier IV
Количество N N+1 N+1 N после сбоя
элементов после
сбоя
Распределительн 1 1 1 активный и 1 2 активны,
ые пути пассивный работают
параллельно
Непрерывное Нет нет есть Есть
обслуживание
Устойчивость к Нет нет Нет Есть
ошибками и сбоям
Непрерывное не требуется не требуется не требуется Требуется
охлаждение Class A (ASHRAE)
ДГУ Standby and Standby and Непрерывной Непрерывной
Prime, на 12 час Prime, на 12 час работы, на12 час работы, на 12 час
топливо топливо топливо топливо
Резервирование Не требуется Не требуется Требуется Требуется
клапанов, выкл. в
электр. системе
Изолированность Не требуется Не требуется Не требуется Требуется
20
Мацкевич Дмитрий , www.DCNT.ru, 2012
22. Классы надежности ЦОД
согласно BISCI 002-2011
Class F0: Нет избыточных элементов и путей,
System DownTime до 400 часов, доступность не меньше 99%
Class F1: Нет избыточных элементов и путей,
System DownTime 100-400 часов, доступность не меньше 99%
Class F2 : Избыточные элементы только для критичных участков,
System DownTime 50-99 часов, доступность не меньше 99,9%
Class F3 : Избыточные элементы,
System DownTime 0-49 часов, доступность не меньше 99,99%
Class F4 : Дублирование подсистем на уровне 2*(N+1), System
DownTime 0, доступность не меньше 99,999%
22
Мацкевич Дмитрий , www.DCNT.ru, 2012
23. Схема электроснабжения ЦОД
согласно BISCI 002-2011
Class F0: Один источник питания. Нет ИБП. Одна линия питания для
ИТ нагрузки.
Class F1: Схема N. Наличие ИБП. Одна линия питания. Резервный
источник питания. Одна линия питания в ИТ нагрузке.
Class F2 : Схема N+1. Резервный источник питания. Одна линия
питания к ИТ нагрузке. Возможность ремонта без останова только на
системном уровне (например, ИБП, ДГУ, чиллер, насос), но не в системе
распределения питания.
Class F3 : Схема N + 1. Резервный источник питания. возможность
одновременного ремонта и эксплуатации. Две линии к ИТ нагрузке, но
только одна линия от ИБП.
Class F4 : Дублирование отдельных подсистем на уровне 2*(N+1). Дата
центр полностью отказоустойчивый, не опускается ниже N+1 во время
ремонта или отказа. Две линии к ИТ нагрузке, обе от ИБП.
23
Мацкевич Дмитрий , www.DCNT.ru, 2012
25. Uptime - процент DouwTime Стоимость
работы без простоя Время простоя в год Время простоя в строительства ЦОД
(уровень месяц по оценке Uptime
надежности) Institute
(1 кв.фут = 0,09 м2)
98 7,3 дня 14,6 час -
99,671 (tier I) 28,8 час 2,4 час 450 USD
99,749 (tier II) 22,0 час 1,83 час 600 USD
99,982 (tier III) 96 мин 8 мин 900 USD
99,995 (tier IV) 24 мин 2 мин от 1100 USD
99,999 5 мин 15 сек 26 сек нет оценки
99,9999 31,5 сек 3 сек нет оценки
27. Стоимость Доход
1 минуты ≈
Время
Повышение надежности с 3-его до 4-ого уровня Цена
вопроса = Стоимость 1 минуты * (96 - 24)
* 96 – время простоя в мин 3-ий уровень, 24 – 4-ый
уровень
28. Может ли клиент подождать…
1 минуту? 1 час? А 1 день???
Один недовольный клиент сообщает всем о проблемах с
компанией !!!
29. Пример ошибок в схеме
электроснабжения по Tier II Uptime
29
Мацкевич Дмитрий , www.DCNT.ru, 2012
30. 3-х дневный курс обучения
«Архитектура и инфраструктура ЦОД»
Запись на семинар
http://dcnt.ru/?p=5210
30
31. СПАСИБО
Дмитрий Мацкевич
консультант и эксперт в области ЦОД