Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Инфраструктура ЦОД Tier Standard: Operational Sustainability

1,372 views

Published on

Аннотация
Разработанный Uptime Institute стандарт Tier Standard: Operational Sustainability является объективной методикой,
которая позволит владельцам ЦОДов настроить программу управлени я объектами в соответствии со стандартом
Tier установленного оборудования площадки для достижения коммерческих целей или основных задач организац ии.
Стандарт Tier Standard: Operational Sustainability определяет алгоритмы и риски за пределами системы классификаци и
Tier (I, II, III и IV), которые влияют на показатели работы ЦОДа в долгосрочной перспективе. Стандарт Tier Standard:
Operational Sustainability приводит к общему знаменателю управление площадкой и функциональность ее инженерных
систем.

Published in: Technology
  • Be the first to comment

Инфраструктура ЦОД Tier Standard: Operational Sustainability

  1. 1. Инфраструктура ЦОД Tier Standard: Operational Sustainability
  2. 2. 1 Аннотация Разработанный Uptime Institute стандарт Tier Standard: Operational Sustainability является объективной методикой, которая позволит владельцам ЦОДов настроить программу управления объектами в соответствии со стандартом Tier установленного оборудования площадки для достижения коммерческих целей или основных задач организации. Стандарт Tier Standard: Operational Sustainability определяет алгоритмы и риски за пределами системы классификации Tier (I, II, III и IV), которые влияют на показатели работы ЦОДа в долгосрочной перспективе. Стандарт Tier Standard: Operational Sustainability приводит к общему знаменателю управление площадкой и функциональность ее инженерных систем. Ключевые слова ЦОД, инфраструктура, Tier, классификация, Tiers, уровень Tier, топология, доступность, надежность, избыточный, Concurrent Maintenance, Concurrently Maintainable, Fault Tolerance, Fault Tolerant, Operational Sustainability, функциональность, производительность, метрики, Tier Standard, алгоритмы, риски, бизнес-цели, стратегические задачи, обслуживание, реагирование на сбой, критическая нагрузка, капитальные инвестиции, элементы, Management & Operations, Building Characteristics, Site Location, проектирование, строительство, ввод в эксплуатацию, переход к эксплуатации, базовая мощность, резервная мощность, человеческий фактор, подбор персонала, организация работы, уборка, система управления обслуживанием, соглашения об уровне обслуживания, жизненный цикл, обучение, обучение на рабочем месте, планирование, координация, управление, политики площадки, управление финансами, библиотека инфраструктуры площадки, параметры здания, принципы проектирования, условия эксплуатации, стихийные бедствия, техногенные катастрофы, база данных с отчетами об инцидентах, метод выполнения работ, анализ отказов, профилактическое техническое обслуживание, упреждающее техническое обслуживание, отложенное техническое обслуживание, контроль качества, процедуры настройки конфигурации площадки, стандартные рабочие процедуры, аварийные эксплуатационные процедуры, заказной, безопасность, доступ, препятствие, заданные значения, затопляемая территория, зона сейсмической активности, оценка рисков Авторское право Авторское право на этот документ принадлежит Uptime Institute, LLC. Предоставляя ссылку для доступа к этому документу правительственным учреждениям, государственным организациям и частным пользователям, Uptime Institute не нарушает никаких авторских прав. Публикации Uptime Institute защищены международным законом об авторском праве. Чтобы воспроизводить или использовать интеллектуальную собственность Uptime Institute или ее часть, необходимо оформить соответствующий письменный запрос. Авторское право Uptime Institute распространяется на любые материалы (бумажные, электронные и видеоматериалы) и включает использование в других публикациях, внутренних документах компании, на веб-сайтах компании и в раздаточных материалах для участников семинаров и обучающих курсов. Для получения более подробной информации посетите www.uptimeinstitute.com/publications и скачайте форму запроса разрешения на перепечатку материалов, охраняемых авторским правом. This document has been translated, in the event that there is a discrepancy introduced by content translation, the original English source prevails.
  3. 3. 2 Введение Это введение не является частью стандарта Tier Standard: Operational Sustainability. Из него читатель может получить представление о контексте применения стандарта. Стандарт Tier Standard: Topology (доступен отдельно) описывает функциональные требования к инженерным системам площадки ЦОДа, которые позволяют достичь бизнес-целей или воплотить стратегическую цель организации. Само по себе соответствие стандарту Tier не гарантирует высокую готовность инженерных систем центра обработки данных в долгосрочной перспективе. Стандарт Tier Standard: Operational Sustainability определяет алгоритмы и риски, находящиеся вне уровня Tier, которые влияют на достижение целей центра обработки данных или решение бизнес- задач в долгосрочной перспективе. Безотказность работы ЦОДа обеспечивается одновременным соответствием уровню Tier как инженерных систем площадки, так и практик и алгоритмов их эксплуатации. Этот стандарт призван помочь владельцам максимально эффективно инвестировать средства в инфраструктуру. Кроме того, он упрощает сравнение центров обработки данных с точки зрения эксплуатации. Аналогично стандарту Tier для установленного оборудования инженерных систем, сложность и строгость концепций и методов управления площадкой по стандарту Operational Sustainability зависит от бизнес-требований к площадке. Из-за высоких требований к производительности инженерные системы площадок уровня Tier III гораздо сложнее инженерных систем уровня Tier I. Аналогичным образом, для центра обработки данных уровня Tier III необходимы более сложные алгоритмы и более жесткие требования к снижению рисков, чем того требует уровень Tier I. Таким образом, алгоритмы, а также методы определения и снижения рисков, предусмотренные стандартом Operational Sustainability, напрямую связаны с системой классификации Tier. Operational Sustainability состоит из трех составных частей — Management & Operations (управление и эксплуатация), Building Characteristics (характеристики здания) и Site Location (расположение площадки), которые перечислены в порядке убывания степени влияния на эксплуатационную устойчивость площадки. Каждая из этих составных частей включает в себя несколько категорий и компонентов с соответствующими алгоритмами и рисками. Анализ базы данных с отчетами об инцидентах Uptime Institute показал, что большинство зарегистрированных сбоев в центрах обработки данных напрямую связаны с недостатками управления, действиями персонала и эксплуатационными процедурами. Следовательно, Management & Operations — самая важная составная часть поддержания эксплуатационной устойчивости. И наконец, стандарт Tier Standard: Operational Sustainability определяет алгоритмы, которые позитивно влияют на эффективность работы ЦОД, а также способствуют повышению его энергоэффективности. Дополнительные факторы и воздействия Стандарты Tier Standard: Topology и Tier Standard: Operational Sustainability, разработанные Uptime Institute, образуют согласованную систему критериев эффективности, которая соблюдается и применяется во всем мире. Для успешного проектирования, реализации и устойчивого функционирования ЦОДа владелец и проектная группа должны также учесть дополнительные факторы и риски. Многие из них определяются расположением площадки, а также местными, национальными или региональными ограничениями и/или нормами. В частности, следует учитывать строительные нормы и правила, требования официальных уполномоченных органов, сейсмические данные, экстремальные погодные условия (сильный ветер, торнадо), наводнения, ограничения, накладываемые прилегающими строениями, наличие профсоюзов или других трудовых организаций и/или физическую безопасность (обусловленную как корпоративной политикой, так и непосредственным окружением). Поскольку существует множество проектных и управленческих особенностей, которые могут быть продиктованы владельцем, требоваться местными органами власти, рекомендоваться отраслевыми группами или считаться общей практикой, стандарты Tier Standard: Topology и Tier Standard: Operational Sustainability не устанавливают по всему миру каких-либо критериев для этих дополнительных факторов и воздействий. Uptime Institute не стремится вытеснить или запутать рекомендации местных экспертов, которые крайне важны для своевременной реализации проекта, соблюдения нормативных требований и использования передовых практик. Для успешной реализации проекта Uptime Institute рекомендует проектной группе сформировать подробный перечень требований проекта, который включает в себя стандарт Tier Standard: Topology и стандарт Tier Standard: Operational Sustainability, а также тщательно продуманные меры по смягчению дополнительных факторов и воздействий. Такой подход гарантирует, что проект будет соответствовать международным стандартам Uptime Institute, а также местным ограничениям и бизнес-модели владельца.
  4. 4. 3 Содержание 1.0 Обзор................................................................................................................................................................4 1.1 Область применения.................................................................................................................................. 4 1.2 Назначение.................................................................................................................................................. 4 1.3 Tier Standard: Topology ...............................................................................................................................4 1.4 Взаимосвязь уровней Tier и Operational Sustainability........................................................................... 5 1.5 Что не рассматривается в стандарте Operational Sustainability........................................................... 5 1.6 Список литературы.................................................................................................................................... 5 2.0 Составные части Operational Sustainability............................................................................................. 5 2.1 Management & Operations............................................................................................................................ 5 2.2 Building Characteristics.................................................................................................................................. 5 2.3 Site Location................................................................................................................................................... 6 3.0 Улучшения топологии.........................................................................................................................................6 4.0 Алгоритмы и риски.............................................................................................................................................. 6 4.1 Структура таблиц......................................................................................................................................... 6 4.2 Оценка эффективности.............................................................................................................................. 6 4.3 Определение приоритетов......................................................................................................................... 7 5.0 Итоги.............................................................................................................................................................. 7 6.0 Сертификация.............................................................................................................................................. 7 Изменения.......................................................................................................................................................................7 Таблица 1.1. Management & Operations: подбор персонала и организация работ......................................... 8 Таблица 1.2. Management & Operations: техническое обслуживание............................................................... 9 Таблица 1.3. Management & Operations: обучение.................................................................................................. 10 Таблица 1.4. Management & Operations: планирование, координация и управление................................... 11 Таблица 1.5. Management & Operations: условия эксплуатации......................................................................... 12 Таблица 2.1. Building Characteristics: предэксплуатационные характеристики............................................ 12 Таблица 2.2. Building Characteristics: характеристики здания........................................................................... 13 Таблица 2.3. Building Characteristics: инфраструктура........................................................................................ 14 Таблица 3.1. Site Location: риск стихийных бедствий.......................................................................................... 15 Таблица 3.1. Site Location: риск техногенных катастроф.................................................................................... 15
  5. 5. 4 1. Обзор 1.1 Область применения Настоящий документ устанавливает стандарт Uptime Institute Data Center Site Infrastructure Tier Standard: Operational Sustainability. Данный стандарт определяет алгоритмы и риски, которые выходят за рамки уровня Tier установленных инженерных систем и влияют на способность ЦОД достигать намеченные бизнес-цели и выполнять стратегические задачи в длительной перспективе. Этот стандарт для владельцев дополняет стандарт Tier Standard: Topology. Стандарт Tier Standard: Topology определяет требования к производительности в отношении конфигурации оборудования электроснабжения и охлаждения, включая возможности резервирования, планового технического обслуживания и реагирования на отказ без воздействия на критическую нагрузку. Стандарт Tier Standard: Topology не содержит рекомендованных или строго предписанных решений. Стандарт Tier Standard: Topology скорее предоставляет концепцию, которая позволяет обеспечить соответствие инвестиций в инфраструктуру объекта с бизнес- целями и стратегическими задачами ЦОД. Стандарт Tier Standard: Operational Sustainability определяет алгоритмы и риски, связанные с управлением объектом, при наличии налаженных инженерных систем. Как и стандарт Tier Standard: Topology, Operational Sustainability ориентирован на улучшение функциональности с ростом уровня Tier, поэтому с переходом на следующий уровень Tier алгоритмы становятся все сложнее и универсальнее. Operational Sustainability состоит из трех составных частей — Management & Operations, Building Characteristics и Site Location. Каждая из этих трех составных частей состоит из нескольких категорий и компонентов, с которыми связаны соответствующие алгоритмы и риски. Определенные алгоритмы в этом стандарте классифицированы по приоритетам и собраны в таблицу, что позволяет владельцам в первую очередь сосредоточиться на процессах с самыми высокими рисками. Чтобы в полной мере реализовать преимущества алгоритмов Operational Sustainability, эти алгоритмы следует применять уже на ранних этапах концептуального планирования ЦОДа. Затем нужно следовать этим алгоритмам на этапах проектирования, строительства, ввода в эксплуатацию, перехода к эксплуатации и, наконец, в течение всего срока эксплуатации центров обработки данных. 1.2 Назначение Стандарт Tier Standard: Operational Sustainability — это совокупность алгоритмов и рисков, характерных для работы центров обработки данных, с классификацией по приоритетам. Он предназначен для владельцев, операторов и менеджеров ЦОД. Рекомендованные алгоритмы помогают реализовать весь потенциал повышения производительности установленных инженерных систем. Этот стандарт призван помочь владельцам повысить эффективность инвестиций в инфраструктуру. Кроме того, он упрощает сравнение ЦОД с точки зрения эксплуатации. Стандарт Tier Standard: Operational Sustainability устанавливает базовые алгоритмы управления площадкой в соответствии с ее уровнем Tier. 1.3 Tier Standard: Topology Стандарт Tier Standard: Topology дает четыре отдельных определения уровня Tier инженерной инфраструктуры ЦОДа (Tier I, Tier II, Tier III, Tier IV), а также описывает тесты на подтверждение характеристик, позволяющие определить соответствие этим определениям. Система классификации Tier Classification System описывает топологию инфраструктуры площадки, необходимую для поддержания эксплуатационной устойчивости центра обработки данных. Тем не менее, она не содержит описания характеристик конкретных систем и подсистем. Ниже для справки приведено краткое описание каждого уровня Tier стандарта Tier Standard: Topology. • Tier I — базовая мощность. Для технического обслуживания и ремонта требуется отключение площадки. Функционирование площадки подвержено сбоям, связанным с отказами активных компонентов и распределения электроснабжения и охлаждения. • Tier II — резервные компоненты. Для технического обслуживания требуется отключение площадки. На работу площадки могут повлиять сбои, связанные с отказами активных компонентов. На рaботу площадки будут влиять сбои, связанные с отказами распределения. • Tier III — Concurrently Maintainable. Любой и каждый активный компонент, а также путь распределения на площадке, можно отключить для планового обслуживания или замены без последствий для функционирования площадки. Тем не менее, площадка подвержена негативному влиянию сбоев оборудования и человеческого фактора. • Tier IV — Fault Tolerant. Отказ отдельного активного компонента оборудования либо отключение пути распределения не влияют на функционирование площадки. Площадка стандарта Fault Tolerant также соответствует требованиям стандарта Concurrently Maintainable.
  6. 6. 5 1.4 Взаимосвязь между уровнями Tier и Operational Sustainability Аналогично уровню Tier установленного инженерного оборудования, строгость и сложность концепций и методик управления площадкой Operational Sustainability определяется бизнес-требованиями для этой площадки. Все три составных части Operational Sustainability влияют на потенциальную производительность топологии Tier установленных инженерных систем, однако в долгосрочной перспективе самое большое влияние оказывает составная часть Management & Operations. Составная часть Management & Operations включает в себя категории, которые напрямую связаны с каждым уровнем Tier, например численность персонала, подход к обслуживанию, а также количество и особенности выполняемых процессов и процедур. 1.5 Что не рассматривается стандартом Operational Sustainability Управление безопасностью, охраной, окружающей средой и персоналом никак не затрагиваются в стандарте Tier Standard: Operational Sustainability. Игнорирование этих аспектов может повлечь существенные риски для работы центра обработки данных. Тем не менее они исключены из этого стандарта, так как находятся в компетенции: а) групп управления или внутренних аудиторских групп соответствия корпоративным требованиям и/или б) внешних органов контроля и регулирующих органов. 1.6 Список литературы Стандарт уровня Tier инженерной инфраструктуры ЦОД Tier Standard: Topology (www.uptimeinstitute.com) 2. Составные части Operational Sustainability 2.1 Management & Operations Анализ базы данных Uptime Institute с отчетами об авариях в ЦОДах показал, что большинство зарегистрированных сбоев в центрах обработки данных напрямую связаны с человеческим фактором. Человеческий фактор — это, в частности, ошибки оператора, но важнее то, что эта характеристика отражает также управленческие решения, касающиеся персонала, его обучения и общего отношения к работе. Наличие надлежащего количества квалифицированных сотрудников имеет решающее значение для достижения долгосрочных целей. Без надлежащего количества квалифицированных сотрудников и правильной организации их труда, у ЦОД не будет ресурсов для успешного функционирования. После правильного подбора персонала необходимо выработать комплексный подход к обслуживанию центра обработки данных, который абсолютно необходим для достижения целевого уровня бесперебойности работы. Эффективная программа обслуживания включает все более строгое (с ростом уровня Tier) профилактическое обслуживание (PM), политики уборки, систему управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA). По мере роста целевых показателей производительности требования к документации, сложность и детализация каждого из этих элементов увеличивается. Кроме того, комплексная программа обучения персонала обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события. 2.2 Building Characteristics Составная часть Building Characteristics включает в себя ввод в эксплуатацию, характеристики здания и инфраструктуру. Все эти аспекты потенциально могут повлиять на достижение целевых уровней готовности. Наличие детальной, продуманной программы ввода в эксплуатацию весьма критично для достижения желаемой степени бесперебойности работы. Комплексный ввод в эксплуатацию — это единственный способ гарантировать соответствие функций инженерных систем площадки требованиям проекта. Он также дает операторам ЦОД возможность испытывать и осуществлять процедуры, не влияя на критическую ИТ-нагрузку. Объем испытаний, производимых при вводе в эксплуатацию, должен быть достаточен для выявления потенциальных производственных дефектов. Особенности здания могут положительно или отрицательно сказаться на целевом уровне надежности. К особенностям здания, способствующим достижению целевых уровней производительности, относятся специально спроектированные и построенные помещения центров обработки данных, достаточное пространство для проведения работ по обслуживанию, наличие вспомогательных помещений, контроль доступа в помещения. Для работы центра обработки данных может быть необходим ряд вспомогательных систем. Например, вспомогательные механические системы, такие, как системы химической обработки и очистки топлива, продлевают срок службы системы и снижают риск сбоя. Наличие достаточного пространства для безопасного проведения работ по профилактическому обслуживанию также снижает риск, связанный с человеческим фактором. Чтобы избежать напрасных капитальных затрат, основные ресурсы ЦОДа (мощность по электропитанию, мощность по охлаждению и пространство для размещения серверов) должны отслеживаться, а их расходование должно производиться по возможности согласованно.
  7. 7. 6 2.3 Site Location Даже самый высокий уровень функциональности центра обработки данных не всегда спасает от аварий, вызванных природными явлениями или техногенными факторами местного или регионального масштаба. Процесс выбора площадки для нового центра обработки данных должен предусматривать оценку риска такого рода катастроф. Для новых или существующих центров обработки данных эти риски должны быть хорошо документированы и учтены руководством. Кроме того, для них должны быть разработаны надлежащие меры по смягчению вероятных последствий. Это позволит учесть как ожидания руководства, так и возможное влияние данного события на уровень готовности ЦОДа. В зависимости от целевого уровня производительности могут потребоваться меры по смягчению последствий. 3. Улучшения топологии Повышение уровня топологии выше требований стандарта для конкретного уровня Tier — прерогатива владельца ЦОД. Таким образом, усовершенствования топологии не являются одним из алгоритмов для Building Characteristics в стандарте Operational Sustainability. Тем не менее, улучшение топологии может значительно повысить потенциальную производительность за счет резервных компонентов и путей распределения или повысить уровень Fault Tolerance выше требуемого показателя для конкретного стандарта Tier. Резервные активные компоненты в Tier IV в конфигурации «Система + Система» снижают риск, связанный с человеческим фактором. Чтобы способствовать реализации программы Operational Sustainability, владельцы должны рассмотреть практические возможности для усовершенствования топологии критически важных систем. Оценка усовершенствований топологии должна обеспечить повышение эксплуатационной гибкости с ростом эксплуатационной сложности. 4. Алгоритмы и риски 4.1 Структура таблиц В таблицах этого стандарта перечислены и классифицированы алгоритмы и риски программы Operational Sustainability. По мере роста целевого уровня бесперебойности работы (Tier) центра обработки данных растет количество алгоритмов Operational Sustainability, необходимых для достижения этой цели. Алгоритмы, применимые для каждого конкретного уровня Tier, отмечены галочкой. В таблицах Site Location перечислены риски, которые необходимо оценить. В таблицах также приведены конкретные критерии для определения величины риска и сформулированы принципы разработки планов по смягчению последствий для каждого риска. 4.2 Оценка эффективности В таблицах приводятся возможные алгоритмы, а не требования. Такие алгоритмы можно реализовать различными способами. Важно, чтобы алгоритмы одновременно существовали и были действенными с точки зрения достижения целевого уровня бесперебойности работы ЦОД. Есть три основных принципа определения эффективности Operational Sustainability: проактивность, практическое использование и информированность. Чтобы алгоритм считался эффективным, необходимо предоставить подтверждение использования всех трех принципов. 4.2.1 Проактивность — есть ли непрерывное улучшение, обеспечивающее постоянное совершенствование и обновление процессов и процедур? Алгоритмы прогнозируются, а надлежащие процессы и процедуры внедряются заранее. Подтверждением применения принципа проактивности могут служить хорошо документированные процессы для всех существующих и ожидаемых мероприятий, а также процедур по регулярному пересмотру и обновлению. 4.2.2 Практическое использование — всегда ли выполняются процессы и процедуры? Само по себе наличие процессов и процедур не улучшит Operational Sustainability, пока весь персонал ЦОД не будет последовательно и дисциплинированно их исполнять. Если задача или процедура выполняется всегда одинаково, независимо от того, кто именно ее выполняет, это может служить подтверждением соблюдения данного принципа. 4.2.3 Информированность — принадлежит ли то или иное знание или навык отдельному сотруднику либо организации в целом? Все ли сотрудники обладают знаниями и доступом ко всем процессам и процедурам для всех видов деятельности, которые им, возможно, потребуется выполнить? Например, если технику необходимо выполнить ту или иную конкретную задачу: 1) знает ли он, что для решения этой задачи существует метод выполнения работ (MOP)? 2) знает ли он, где и как его найти? и 3) имеет ли он доступ к нему?
  8. 8. 7 4.3 Определение приоритетов Приоритеты алгоритмов Management & Operations и Building Characteristic определяются по результатам анализа базы данных с отчетами об инцидентах. Для каждой составной части перечислены категории и компоненты в порядке убывания важности. Риски для составной части Site Location не менее важны, но величина потенциального воздействия зависит от конкретных критериев, по которым определяется величина рисков. Наличие мер по смягчению последствий сокращает потенциальное воздействие на эксплуатацию. 5. Выводы Алгоритмы, определенные в стандарте Tier Standard: Operational Sustainability, в сочетании с требованиями к инженерной инфраструктуре в стандарте Tier Standard: Topology, играют важную роль для достижения ЦОДом потенциала, заложенного в конструкцию уровня бесперебойности. Сами по себе установленные инженерные системы ЦОДа не могут обеспечить работоспособность площадки в долгосрочной перспективе, если не будут реализованы алгоритмы Operational Sustainability. Та команда, которая использует в практике управления площадкой принципы обоих стандартов, достигнет заметно лучших результатов или даже превысит полный потенциал бесперебойной работы установленной инженерной инфраструктуры. 6. Сертификация Uptime Institute оставляет за собой исключительное право на оценку и сертификацию центров обработки данных в соответствии со стандартами Tier Standard: Topology и Tier Standard: Operational Sustainability. Дополнительные сведения см. на сайте www.uptimeinstitute.com Изменения Этот стандарт включает в себя формулировку и организационные изменения для уточнения выбора алгоритма. Информация о рейтинге Operational Sustainability доступна на сайте www.uptimeinstitute.com.
  9. 9. 8 Категория подбора персонала и организационной структуры Применимый стандарт Tier Компонент Алгоритм I II III IV Персонал 1. Лицо, назначенное на полный или неполный рабочий день для контроля работы критически важного оборудования  2. Персонал и/или поставщики, обеспечивающие достижение целевого уровня бесперебойности выполнения бизнес-задач  3. Присутствие сотрудников в режиме 7 х 24: не менее 1 квалифицированного сотрудника на полной ставке  4. Присутствие сотрудников в режиме 7 х 24: Наличие в смене 2 квалифицированных сотрудников службы поддержки объекта на полной ставке  5. Общее количество сотрудников на полной ставке соответствует требованиям к рабочей нагрузке    6. Наличие процедур эскалации и вызова дополнительной помощи для назначенного собственного персонала и внешних поставщиков сервиса для определенных критических важных систем и оборудования    7. Распределение инженеров различных направлений (например, специализирующихся на электрических, механических системах, системах управления, системах управления зданием (BMS) и т. д.) сменное покрытие в соответствии с требованиями к эксплуатации и обслуживанию   Квалификация 1. Надлежащие разрешения и допуск у персонала в соответствии с государственными нормами     2. Опыт и техническая подготовка, необходимые, чтобы правильно обслуживать и эксплуатировать установленное инженерное оборудование   3. Работающий посменно персонал с надлежащей квалификацией для определенных операций смены, выполняемых в индивидуальном порядке или сменной бригадой   Организация 1. Организационная диаграмма, показывающая цепь отчетности и все взаимодействия между подразделениями, ответственными за эксплуатацию ЦОДа, проектирование, ИТ, безопасность     2. Должностные инструкции для сотрудников службы эксплуатации - доступны и используются    3. Таблица ролей и обязанностей, охватывающая все виды деятельности в ЦОД - доступна и используется   4. Назначенные ведущие специалисты и их заместители   5. Интегрированный подход к управлению эксплуатацией, охватывающий все аспекты работы центра обработки данных (эксплуатация, ИТ, безопасность)   Таблица 1.1. Management & Operations: категория подбора персонала и организации работ
  10. 10. 9 Категория обслуживания Применимо для уровня Tier Компонент Алгоритм I II III IV Программа профилактического обслуживания 1. Эффективная программа профилактического обслуживания (PM), включающая список мероприятий по техническому обслуживанию, сроки проведения и запись о завершении     2. В программу PM обычно включаются рекомендации по техническому обслуживанию от производителей оригинального оборудования (OEM)    3. Подробные процедуры переключения между резервным оборудованием (доступные и используемые)   4. Полностью алгоритмизованные мероприятия по профилактическому обслуживанию (например, с помощью процедуры MOP)   5. Наличие процесса контроля качества, подтверждающего а) надлежащее завершение и б) качество PM   Основные правила уборки 1. На полу компьютерного зала и под ним нет грязи и мусора     2. В ЦОД нет горючих веществ, уборочного оборудования, транспортировочной тары или личных вещей (например, кофейников, микроволновых печей)    3. Разработаны и применяются правила уборки для обеспечения чистоты и порядка в центре обработки данных   Система управления техническим обслуживанием 1. Система эффективного управления техническим обслуживанием ((MMS) бумажная или электронная) для отслеживания состояния всех операций обслуживания (доступная и используемая)     2. Ведение списка установленного оборудования с информацией о производителе, модели, годе производства и установки, рабочих технических характеристиках, гарантийном обслуживании и т. д.    3. Наряды на работы включают список специальных инструментов или деталей, необходимых для выполнения PM   4. Ведение записей о производительности оборудования и тенденциях в ее изменении, а также хронологии проведения технического обслуживания   5. Отслеживание требований к калибровке   6. Ведение перечня критически важных запасных деталей с установленными точками повторного заказа   Поддержка поставщиков 1. Список квалифицированных поставщиков по системе, которые могут выполнить плановое и аварийное обслуживание     2. Соглашения об уровне обслуживания (SLA) с изложением объема работ, графика PM, требования к обучению и времени реагирования для всех критически важных систем    3. Процесс вызова поставщиков и контактные лица для вызова предварительно одобренных и квалифицированных специалистов   Отложенное техническое обслуживание 1. Степень выполнения PM больше, чем (>) 90 %  2. Степень выполнения PM достигла 100 %   3. Процесс отслеживания отложенного обслуживания и выполнения его в течение окна обслуживания   Программа предиктивного обслуживания 1. Эффективная программа предиктивного обслуживания   Планирование жизненного цикла 1. Эффективный процесс планирования, организации и финансирования замены основных компонентов инфраструктуры после завершения их жизненного цикла   Программа анализа отказов 1. Ведение списка всех отказов с указанием даты, времени, задействованного инженерного оборудования и систем, а также списка конкретных отказов вычислительных систем, анализ первопричины и сделанные выводы    2. Эффективный процесс для определения первопричины, выводов и корректирующих действий   3. Процесс анализа тенденций  Таблица 1.2. Management & Operations: категория обслуживания
  11. 11. 10 Категория обучения Применимо для уровня Tier Компонент Алгоритм I II III IV Обучение персонала ЦОД 1. Программа обучения на рабочем месте (OJT) для каждого нового сотрудника а) по системам, за эксплуатацию и поддержание работоспособности которых они будут нести ответственность, и б) по правилам работы в центре обработки данных     2. Выделенная аудитория для проведения занятий, демонстрация действий и/ или подробное изучение работы смен, должны содержать следущее:   • Все политики, процессы и процедуры эксплуатации и технического обслуживания систем центра обработки данных • Процедуры настройки конфигурации площадки (SCP) — как настраивается конфигурация инженерного оборудования для штатной работы • Рабочие процедуры (SOP) — как меняется конфигурация инженерного оборудования во время штатной эксплуатации • Аварийные эксплуатационные процедуры (EOP) — как осуществляется управление площадкой и ее эксплуатация при отклонении от нормальных условий или в чрезвычайных ситуациях • MOP • Процедуры системы управления техническим обслуживанием (MMS) 3. Учебные программы, включая график обучения, планы занятий, необходимые справочные материалы и записи о посещаемости   4. Формальная программа квалификации для назначенного персонала, осуществляющего эксплуатацию центра обработки данных   Обучение поставщиков (для персонала, занятого в ЦОДе неполный рабочий день) 1. Список необходимых учебных программ, которые персонал поставщика должен пройти, чтобы получить разрешение на работу в центре обработки данных     2. Брифинг по процессам в ЦОДе и процедурам, связанным с работами, которые необходимо провести    3. Официальный учебный курс, охватывающий соответствующие разделы курса, пройденные персоналом ЦОДа   4. Учебные программы, включая график обучения, планы занятий, необходимые справочные материалы и записи о посещаемости   Таблица 1.3. Management & Operations: категория обучения
  12. 12. 11 Категория планирования, координации и управления Применимо для уровня Tier Компонент Алгоритм I II III IV Правила объекта 1. Официально документированные политики и процедуры по следующим направлениям:    • Выполнение персоналом площадки всех операций с оборудованием (например, изменение конфигурации и эксплуатация в штатных, аварийных или необычных условиях) • Конфигурация площадки: конфигурация оборудования площадки для штатных условий эксплуатации • Стандартные операции: изменения в нормальной рабочей конфигурации (например, переключение/ротация чиллеров) • Аварийные операции: управление площадкой в нештатных ситуациях или при наступлении необычных событий • Управление изменениями: а) рассмотрение и утверждение изменений на базовой площадке и б) оценка рисков, связанных с планируемыми изменениями • Планы по смягчению рисков для площадок Финансовый процесс 1. Процесс, позволяющий обеспечить согласованные и достаточные уровни финансирования эксплуатационных и капитальных затрат и доступность необходимых средств для достижения бизнес-цели     2. Управление эксплуатационными и капитальными бюджетами осуществляется отдельно для критически важных и некритичных объектов (бюджеты для разных зданий или групп зданий не объединяются)   Библиотека справочной литературы 1. Можно воспользоваться следующими ссылками и документами (на площадке или вне ее):     • Исполнительная документация • Документация по эксплуатации и техническому обслуживанию • Протоколы обследования/испытания (структурные, электрические, технические, в том числе по грунтам, выключателям, цепям и т. д.) • Отчеты о пусконаладочных работах • Гарантийная документация и предварительные соглашения на обслуживание • Записанные автоматические последовательности операций 2. Перечисленные выше ссылки и документы доступны на площадке в любое время   3. Справочные документы в централизованном хранилище (библиотеке) доступны для обслуживающего персонала площадки   4. Процесс своевременного обновления главных копий и хранения дополнительных копий для эксплуатационного персонала площадки, поставщиков, проектировщиков и т. д.   Управление мощностями 1. Процесс управления установкой ИТ-оборудования в компьютерном зале и удаления этого оборудования из зала     2. План размещения оборудования в компьютерном зале — разрабатывается, а затем регулярно пересматривается и обновляется    3. Периодический процесс прогнозирования остающихся в наличии мощностей по электроснабжению, охлаждению и пространства для размещения серверного оборудования (например, 1/6/12/24/36 месяцев)   4. Механизм отслеживания использованных мощностей по электроснабжению, охлаждению и пространства для размещения серверного оборудования   5. Эффективный процесс для а) управления воздушными потоками в компьютерном зале и б) мониторинга, управления и анализа электропитания   Таблица 1.4. Management & Operations: категория планирования, координации и управления
  13. 13. 12 Категория условий эксплуатации Применимо для уровня Tier Компонент Алгоритм I II III IV Управление нагрузкой 1. Процесс, гарантирующий, что максимальная нагрузка не будет превышена, а для переключения между компонентами будет зарезервирована необходимая мощность    Эксплуатационные уставки 1. Согласованные эксплуатационные уставки (например, по температуре, давлению, объемному расходу и т. д.) задаются на основе компромисса между риском прерывания эксплуатации и стоимостью эксплуатации    Чередование (ротация) резервного оборудования 1. Эффективный процесс для попеременного использования резервного оборудования инженерных систем в рамках программы технического обслуживания площадки    Таблица 1.5. Management & Operations: категория условий эксплуатации Категория предэксплуатационных характеристик Применимо для уровня Tier Компонент Алгоритм I II III IV Пусконаладочные работы 1. Заводское тестирование производителем (FWT) критически важного инженерного оборудования    2. Получение, установка и предварительное функциональное тестирование критически важного инженерного оборудования    3. Функциональное тестирование, автономное тестирование критически важного инженерного оборудования и начальная конфигурация предварительного пуска системы    4. Запуск системы, OEM-тестирование и индивидуальное тестирование систем (IST)    5. Интегрированные эксплуатационные испытания систем ЦОДа (ISOT)   Таблица 2.1 Building Characteristics: категория предэксплуатационных характеристик
  14. 14. 13 Категория характеристик здания Применимо для уровня Tier Компонент Алгоритм I II III IV Специально спроектированное и построенное здание ЦОДа 1. Специализированное здание ЦОДа   2. Специализированный объект для поддержки эксплуатации ИТ-оборудования   3. Отдельно стоящее здание, физически отделенное от других объектов на площадке   4. ЦОД построен по стандартам, превышающим местные строительные нормы, что обеспечивает непрерывное функционирование в условиях вероятных природных катаклизмов   Подсобные и специальные помещения 1. Отдельное от компьютерного зала, достаточное пространство для приема, хранения, установки, сборки и тестирования ИТ-оборудования    2. Отдельное от компьютерного зала, достаточное пространство для следующих задач:   • Центр управления BMS/BAS • Центр управления/аварийного восстановления • Хранилище запасных частей и инструмента • Помещение мастерской • Помещение для проведения собраний и обучения Безопасность и контроль доступа 1. Контролируемый доступ ко всем компьютерным залам и вспомогательным помещениям    2. Контролируемый доступ в здание   3. Периодический пересмотр прав доступа   4. Контролируемый доступ к площадке  Зона отчуждения 1. Достаточное пространство вокруг ЦОД, чтобы минимизировать воздействие соседних объектов   Таблица 2.2. Building Characteristics: категория характеристик здания
  15. 15. 14 Категория инфраструктуры Применимо для уровня Tier Компонент Алгоритм I II III IV Гибкость для дополнительного увеличения мощности 1. Разработан и построен так, чтобы пространство компьютерного зала можно было изменить, приложив разумные усилия, а дополнительное увеличение пространства для размещения серверов, ресурсов электропитания и охлаждения можно было выполнить с минимальным риском для существующей критической нагрузки   2. Точки подключения для будущих или временных расширений или дополнительных модулей   Инфраструктура для поддержки эксплуатации 1. Доступны вспомогательные системы (например, химическая обработка, очистка топлива и т. д.), позволяющие продлить срок службы или защитить инженерное оборудование   2. Для облегчения работы установлены механические системы   3. Консистентная маркировка инженерного оборудования и стандартизированные размеры   4. Электрические системы, установленные для облегчения работы   Простота обслуживания 1. Достаточное пространство для безопасного проведения всех работ по техническому обслуживанию инженерных систем    2. Достаточное пространство (достаточные радиусы разворота, точки подъема, входы/выходы) для быстрого и безопасного удаления и замены оборудования   3. Доступ к оборудованию, облегчающий доставку и установку двигателей и других крупных компонентов   Точки исчерпания ресурсов пространства, электроснабжения, охлаждения 1. Проект центра обработки данных, согласовывающий точки исчерпания ресурсов пространства, электроснабжения, охлаждения   Таблица 2.3. Building Characteristics: категория инфраструктуры
  16. 16. © Uptime Institute, LLC, 2013-2014. Все права защищены. 00067 A 15 Uptime Institute является подразделением The 451 Group, ведущей аналитической и исследовательской компании в информационной отрасли. Представительства Uptime Institute расположены в США, Мексике, Коста-Рике, Бразилии, Великобритании, Испании, ОАЭ, России, Тайване, Сингапуре и Малайзии. Более подробную информацию можно получить на сайте www.uptimeinstitute.com. Категория риска стихийных бедствий Степень риска 1 Компонент Выше Ниже Наводнение (река, озеро, водохранилище, канал, пруд и т. д.) и цунами 2 Территория, затопляемая < 100 лет Территория, затопляемая > 100 лет Ураганы, торнадо и тайфуны  Высокий Средний Сейсмическая активность 3 > 0,8 м/с2 < 0,8 м/с2 Активные вулканы  Высокий Средний Таблица 3.1. Site Location: категория риска стихийного бедствия Категория риска техногенных катастроф Степень риска 1 Компонент Выше Ниже Аэропорт, военный аэродром < 5 км от взлетно-посадочной полосы; в пределах 1,6 х 8-километровой зоны продолжения направления взлетно-посадочной полосы > 5 км от взлетно-посадочной полосы; за пределами 1,6 х 8-километровой зоны продолжения направления взлетно-посадочной полосы Влияние примыкающих объектов Химический завод, фабрика пиротехники и т. д. Офисное здание, пустырь и т. п. Транспортные коридоры < 1,6 км > 1,6 км Таблица 3.2 Site Location: категория риска техногенных катастроф 1 Наличие смягчающих мер должного уровня сократит потенциальное воздействие на эксплуатацию. 2 Оценка риска по региональной или местной карте наводнений или международному эквиваленту. 3 Карта пиковых возможных ускорений грунта (метров в секунду в квадрате (м/с2 )), которое можно ожидать в течение ближайших 50 лет с вероятностью 10%. О компании Uptime Institute Uptime Institute — это независимая консалтинговая организация, чья деятельность направлена на улучшение производительности, эффективности и надежности ключевой инфраструктуры бизнеса с помощью инноваций, сотрудничества и независимых сертификаций. Uptime Institute помогает всем заинтересованным сторонам, отвечающим за ИТ-услуги, предоставляя предприятиям, организациям и сторонним операторам, производителям и поставщикам ведущие отраслевые стандарты, образовательные программы, сотрудничество с коллегами, консалтинг и программы поощрений. Компания Uptime Institute признана во всем мире как организация, создавшая и администрирующая стандарты и сертификацию Tier для проектирования, строительства и эксплуатации ЦОДов, а также производящая аудит управления и эксплуатации ЦОДов, как автор методологии FORCSS™ и инициатив по энергоэффективности. Есть вопросы? Обратитесь к своему региональному представителю на странице http://uptimeinstitute.com/contact-us или свяжитесь с нами по электронной почте info@uptimeinstitute.com.

×