Uptime institute что это
«Как это работает»: Классификация ЦОД Tier
В июне этого года было анонсировано сразу несколько важных событий в индустрии дата-центров. Для начала стало известно, что получено разрешение на строительство первого в Республике Бангладеш и единственного в своем роде в Азии национального ЦОДа категории Tier IV. Следом за этим японский технический гигант Fujitsu объявил о глобальной модернизации своих австралийских дата-центров — тоже до уровня Tier IV. Последние новости дали почву для размышлений об эволюции ЦОДов и сути их классификации, о чем сегодня мы и поговорим.
Классификация Uptime Institute
У клиентов операторов дата-центров всегда были определенные ожидания и требования к предоставляемой инфраструктуре. В основном речь шла о надежности и безопасности — самых значимых показателях при выборе центра обработки данных. Вехой в становлении стандартизации стало объединение в 1989 году единомышленников в группу Uninterruptible Uptime Users Group (UUUG). По словам Эдварда Рафтера (Edward Rafter), инженера, проектировавшего ЦОДы на раннем этапе развития индустрии в США, это событие ознаменовало собой поворотный момент в обмене опытом и стало первым толчком к оценке инфраструктуры дата-центров.
В 1993 году организация Uptime Institute с помощью ассоциации компаний, ответственных за обслуживание наиболее важных ЦОДов в Америке, создала базу по обмену опытом. На ее основе начали вырабатываться способы оценки эффективности центров обработки данных. Были проанализированы аспекты, которые влияют на принятие бизнес-решений: около 30 факторов работоспособности дата-центров, относящихся к расположению, воздействию на окружающую среду и качеству обслуживания и 16 подсистем технического характера. На последних и было сосредоточено внимание Uptime Institute при разработке классификации. Она была оформлена в 1990-х в качестве стандартизованной методологии.
Uptime Institute обладает правами на сертификацию ЦОДов в соответствии с Tier-системой при проектировании, строительстве и эксплуатации инфраструктуры во всем мире. Дата-центры в России разрабатываются в соответствии с требованиями стандарта TIA-942 Ассоциации изготовителей оборудования для передачи данных (TIA) Института американских национальных стандартов. Требования TIA охватывают сферы строительства, электроснабжения, охлаждения, контроля безопасности, резервирования, ремонтопригодности и ввода в эксплуатацию.
Uptime Institute и внутренние ГОСТы используются в России как дополнения к стандартам TIA. Важно, что TIA-942, представленный в 2005 году, в свою очередь, основывается на стандарте Uptime Institute. Более того, между Uptime Institute и TIA достигнуто соглашение, в результате которого Ассоциация отказалась от использования в своей методологии термина Tier. Теперь он всецело связан с деятельностью Uptime Institute.
Если говорить о различиях двух подходов, стоит отметить, что система Uptime Institute не стремится обеспечивать жесткую техническую спецификацию того, как следует проектировать и строить ЦОДы. Стандарт TIA, напротив, диктует конкретные требования по ресурсам и доступности для каждого уровня. В отличие от Uptime Institute, TIA не имеет полномочий для проведения официальной процедуры оценки дата-центров. Также нет группы оценщиков, следящей за соблюдением стандартов. Однако конкретные требования к каждому уровню находятся в открытом доступе и не предусмотрено никакой платы за их использование. В противоположность этому Uptime Institute проводит платную сертификацию ЦОДов.
Известны четыре уровня стандарта Uptime Institute:
Дата-центр первого уровня предоставляет выделенную инфраструктуру для поддержки IT-систем за пределами офиса, источник бесперебойного питания для фильтрации скачков напряжения и обработки кратковременных отключений, специальное охлаждающее оборудование, которое продолжает функционировать и по завершении рабочего дня, генератор для защиты систем от продолжительных отключений электроэнергии.
ЦОДы второго уровня включают в себя резервные возможности для критически важных компонентов в целях обеспечения ремонта и повышенной защиты IT-процессов от сбоев. Резервируемые системы включают в себя оборудование для питания и охлаждения, такие как источники бесперебойного питания, чиллеры или насосы, а также генераторы.
Центр обработки данных Tier III не требует прекращения работы оборудования для замены «железа» и обслуживания. К компонентам добавляется резервный канал питания и охлаждения так, чтобы каждый элемент, необходимый для поддержки IT-системы, можно было отключить, и это не сказалось на работе.
ЦОДы Tier IV в дополнение ко всем особенностям предыдущего уровня характеризуются повышенной (еще большей, чем у Tier III) отказоустойчивостью, то есть сбои отдельных элементов или перебои резервного канала не сказываются на IT-операциях.
Принято считать, что ожидаемый уровень безотказной работы дата-центра Tier I составляет 99,671% (1729 минут годового простоя); Tier 2 — 99,741% (1361 минут годового простоя); Tier III — 99,982% (95 минут годового простоя); Tier IV — 99,995% (26 минут годового простоя).
Зачем нужна классификация ЦОДов?
Uptime Institute принимает заявки операторов дата-центров на независимую оценку инфраструктуры. Это добровольная процедура, к которой прибегают не все компании. При этом, исходя из базовой идеи классификации, прозрачность в вопросе выбора ЦОДа — благо для клиентов. Поэтому, начиная с 2015 года, Uptime Institute принялся стимулировать операторов к прохождению сертификации.
Организация объявила о новом параметре оценки дата-центров — энергоэффективности. Предлагаются два уровня соответствия: «одобренный» и «активированный». Результат оценки, по мнению Uptime Institute, свидетельствует о передовом опыте компании в отрасли. Подтвержденная энергоэффективность дата-центра выступает дополнительным аргументом для выбора клиентами.
В целом классификация важна для клиента, так как она выступает гарантией соответствия ожиданиям конечного результата в вопросе безотказной работы и производительности. Джо Хертвик (Joe Hertvik), глава консалтинговой компании Hertvik Business Services, определяет несколько сценариев использования рейтинговой системы:
Какой Tier выбрать?
Существует распространенное заблуждение: уровень качества услуг дата-центров возрастает с каждым Tier. На самом деле, классификация ЦОДов не нацелена на то, чтобы определить лучший тип дата-центров. Каждый Tier предназначен для удовлетворения разнообразных бизнес-потребностей и требований к производительности. Различным предприятиям нужна различная инфраструктура, и для большинства организаций хостинг в центре Tier IV попросту неэффективен.
В 2013 году портал Data Center Dynamics опросил группу экспертов, чтобы выяснить, стоит ли переплачивать за переход на более высокий Tier. Раул Шеуол (Rahul Shewale), консультант в Capgemini, и доктор Карлос Гарсия де ла Ночеда (Dr Carlos Garcia de la Noceda) сошлись во мнении, что ЦОД Tier III может обладать более надежной инфраструктурой и быть более эффективным с экономической точки зрения, чем Tier IV. А Уильям Энгл (William Angle), директор CS Technology, участвовавший в создании первого в мире объекта Tier IV, полагает, что почти 60% всех сбоев происходит из-за людей, а не из-за инфраструктуры — поэтому не всегда есть смысл обращаться к максимальным конфигурациям.
Сотрудники Uptime Institute же сообщают, что расходы на инфраструктуру ЦОДов и операционные сложности возрастают от уровня к уровню, и владельцам следует выбирать Tier, который лучше соответствует потребностям конкретного бизнеса.
«Tier IV не всегда «лучше» решения Tier II. Инфраструктура центра обработки данных должна соответствовать коммерческому применению, иначе компании могут вложить чрезмерно большой капитал или взять на себя слишком большой риск», — говорится на сайте организации.
Если вспомнить последние новости, можно заметить, что стремление Бангладеша и Fujitsu к ЦОДам Tier IV объясняется климатическими и сейсмическими обстановками, но не лучшими характеристиками этих дата-центров в сравнении с другими. Строительство мега-ЦОДа власти Бангладеш анонсировали еще в 2014 году, и тогда же появилась информация о выборе под эти цели района, подверженного землетрясениям.
Представители Uptime Insitute заявили, что риски землетрясения не учитываются при сертификации Tier, однако, по словам Гэри Вонга (Gary Wong) из телекоммуникационной компании Instor Solutions, метод сейсмической изоляции учитывается Uptime Insitute для присуждения Tier IV в сейсмически опасных районах. Что касается обновления статуса дата-центров Fujitsu в Австралии, оно было вызвано отключением из-за удара молнии в 2015 году, рассказал исполнительный директор Fujitsu в Австралии и Новой Зеландии Майк Фостер (Mike Foster).
На практике получается, что возможностей дата-центров Tier I и Tier II обычно достаточно для предприятий, которые могут справиться со случайным простоем сервера в нерабочее время. Для компаний, чей бизнес функционирует в режиме 24 часа в сутки по всему миру, или для компаний, где любой простой отрицательно скажется на операционной деятельности, инвестиции в Tier III или Tier IV могут себя оправдать.
Иначе говоря, Tier I подойдет для малых предприятий, в которых IT-инфраструктура лишь расширяет внутренние бизнес-процессы и не является основным инструментом. Tier II будет достаточным для малых предприятий, чьи IT-запросы в основном ограничены традиционными рабочими часами и позволяют отключать систему в нерабочее время. Крупные предприятия с обязательствами по круглосуточному обслуживанию клиентов и автоматизации бизнес-процессов, работающие в сферах, где качество сервиса является конкурентным преимуществом, могут выбирать между Tier III и Tier IV. При этом защита от простоев в случае с Tier III является достаточной в большинстве ситуаций.
Например, мы в «ИТ-ГРАД» выбрали для размещения части своей распределенной инфраструктуры ЦОД SDN в Санкт-Петербурге, который является дата-центром уровня Tier III. Этого достаточно, чтобы предоставлять востребованные IT-услуги, начиная от co-location и заканчивая арендой IaaS-облака, сертифицированного в соответствии с требованиями стандарта PCI DSS.
Для обеспечения должной надежности в SDN используются такие решения, как динамические источники бесперебойного питания, собственная распределительная подстанция, модульная структура, охлаждение силами установки KyotoCooling B.V. на основе роторного теплообмена. Безопасность дата-центра обеспечивается многоуровневой защитой с несколькими периметрами.
Поддержка температурно-влажностного режима в SDN
В Москве в качестве облачной площадки мы выбрали один из крупнейших московских дата-центров DataSpace, вмещающий 12 машинных залов на 1000 стоек. DataSpace также прошел полный цикл сертификации Tier III Gold по стандартам Uptime Institute, имея полное резервирование инженерных систем и обеспечивая высокий уровень готовности с возможностью проведения как регламентных, так и ремонтных работ без прерывания ИТ- и бизнес-процессов. Услуги colocation предоставляются на основе Соглашения об Уровне Обслуживания (SLA), по условиям которого мы получаем 100%-ную доступность оборудования, приложений и данных, что выше, чем по стандарту сертификации Tier III Facility
Таким образом, в дискуссии о лучшем Tier не существует универсального ответа — Tier IV не является «серебряной пулей» и подходит лишь ограниченному типу организаций. При выборе уровня дата-центра компании в первую очередь необходимо исходить из целей, которые она собирается решать и финансовых возможностей — все зависит от области задач конкретной компании.
А продемонстрируйте, или Как мы проходили аудит Operational Sustainability в Uptime Institute
Руководитель отдела эксплуатации залез в люк подземного топливохранилища, чтобы показать маркировку на электромагнитном клапане.
В начале февраля наш самый большой дата-центр Tier III NORD-4 прошел повторную сертификацию Uptime institute (UI) по стандарту Operational Sustainability. Сегодня расскажем, на что смотрят аудиторы и с какими результатами мы финишировали.
Для тех, кто с дата-центрами на «вы», кратко пройдемся по матчасти. Tier Standards оценивает и сертифицирует дата-центры на трех этапах:
Как проверить, что нужные процессы выстроены и работают как надо? Тем более, как сделать это за два дня — именно столько идет повторная сертификация. Если кратко, то сертификация строится на кропотливом сопоставлении написанного в регламентах, рассказов «как все устроено» и реальных практик. Информация о последних добывается из обходов дата-центра и бесед с инженерами дата-центра — «очных ставок», как мы их ласково называем. Вот на что смотрят.
Команда
В первую очередь аудиторы UI проверяют, хватает ли в дата-центре обслуживающего персонала. Берут штатное расписание, график дежурства и выборочно сверяют с отчетами смен и данными СКУД, чтобы убедиться, что нужное количество инженеров действительно было в тот день на площадке.
Также аудиторы пристально смотрят на количество часов переработки. Такое иногда случается, когда заезжает крупный клиент и одновременно нужно поставить десятки стоек. В такие моменты ребята из других смен приходят на помощь, и им за это выплачивают дополнительные деньги.
В смене на NORD-4 работают 7 инженеров: 6 дежурных и один старший инженер. Это те, кто следит за мониторингом 24х7, встречают клиентов, помогают с установкой оборудования и прочими штатными запросами. Это первая линия клиентской техподдержки. В их же обязанности входит фиксация аварийных ситуаций и эскалация на специализированных инженеров. За работой инженерной инфраструктуры следят отдельные люди — дежурные по инфраструктуре. Также 24х7.
Директор по производству и старший по площадке NORD рассказывает аудиторам, сколько человек работает на площадке прямо сейчас.
Когда с численностью разобрались, проверяют квалификацию команды. Аудиторы случайным образом просматривают личные дела инженеров, чтобы убедиться, что у них есть необходимые дипломы, сертификаты, разрешающие документы (например, удостоверения по электробезопасности) для работы на данной позиции.
А еще проверяют то, как мы обучаем персонал. Наша система подготовки новых дежурных инженеров еще во время прошлого аудита впечатлила специалистов UI. Для них мы проводим трехмесячный курс подготовки в режиме оплачиваемой стажировки, в ходе которой знакомим их с процессами и принципами работы именно в нашем дата-центре.
Уже работающие инженеры тоже должны регулярно проходить тренинги, в том числе и по работе в аварийных ситуациях. Аудиторы обязательно проверят учебные программы и материалы таких тренингов, а еще выборочно проэкзаменуют инженеров. Переключаться на ДГУ никого не будут просить, а вот рассказать пошагово, что надо делать при отключении городского электроснабжения, попросят. По результатам аудита мы будем приводить все программы обучения и тренировок к единому стандарту, чтобы они не отличались для разных команд.
Показываем аудиторам комнату отдыха для сменных инженеров.
Эксплуатация и обслуживание инженерных систем
В этом большом разделе аудита мы показываем, что все инженерное оборудование и системы получают регулярное техническое обслуживание по рекомендуемому вендорами графику, на складе есть необходимый ЗИП, действующие договоры с подрядчиками на обслуживание, а для каждой операции с оборудованием прописаны свои процедуры и алгоритмы работы на разные случаи.
MMS. Когда эксплуатируешь десятки ИБП, ДГУ, кондиционеров и прочего, нужно где-то собирать всю информацию об этом хозяйстве. Вот примерно такое досье создается на каждую единицу оборудования у нас:
Вот такое «личное дело» есть на каждую единицу оборудования.
Свои практики по этой части мы показывали в том числе на примере вот этого инфраструктурного ИБП (на фото), который пожертвовал одну из своих деталей ИБП, обслуживающему ИТ-нагрузку. Да, по стандарту таким «донорством» может заниматься только инфраструктурное оборудование, которое питает кондиционеры, аварийное освещение, но не ИТ-нагрузку.
После аудиторы попросили показать соответствующий тикет в Service Desk:
И профиль ИБП в MMS:
ЗИП. Для своевременного обслуживания и аварийных ремонтов инженерного оборудования мы держим свой ЗИП. Есть общий склад с крупными запчастями для оборудования и небольшие шкафы с ЗИП в инженерных помещениях (чтобы не нужно было далеко бежать).
На фото: мы проверяем наличие ЗИП для ДГУ. Насчитали 12 фильтров. Потом сверялись с данными в MMS.
Аналогичное упражнение проделали на основном складе, где хранятся крупные запчасти: компрессоры, контроллеры, автоматика, вентиляторы, пароувлажнители и еще сотни позиций. Выборочно переписали маркировки и «пробили» их по MMS.
Данные по запасам ЗИП. Красное — это то, чего не хватает и нужно докупить.
Предупредительное обслуживание. Помимо ТО и ремонтов UI рекомендует заниматься предупредительным обслуживанием. Оно помогает превратить потенциальную аварию в плановый ремонт. По каждому параметру мы настраиваем пороговые значения в мониторинге. Если они превышаются, ответственные получают алармы и предпринимают необходимые действия. Например, мы:
Работа с подрядчиками. ТО и ремонты оборудования делают внешние подрядчики. С нашей же стороны есть отдельные специалисты по ДГУ, кондиционерам, ИБП, которые контролируют их работу. Они проверяют, есть ли у подрядчиков необходимые инструменты и материалы для ремонтных работ/ТО, профессиональные сертификаты, корочки электробезопасности, допуски. Они же принимают все работы.
Примерно так выглядит чек-лист для приемки работ по ТО кондиционера.
В бюро пропусков проверяем, оформлены ли пропуска на авторизованных представителей подрядчиков, проходили ли они в указанное время ТО и ознакомились ли они с правилами.
Документация. Выстроенные процессы по обслуживанию систем и оборудования — это полдела. Все процедуры, которые выполняются человеком в дата-центре, должны быть задокументированы. Цель этого простая: чтобы все не замыкалось на одном конкретном человеке и в случае аварии любой инженер мог взять понятную инструкцию и сделать все необходимые операции для ее ликвидации.
У UI своя методология по такой документации.
Для простых и повторяющихся действий составляют стандартные эксплуатационные процедуры (Standard Operational Procedure, SOP). Например, SOP’ы есть для включения/выключения чиллера, постановки ИБП на bypass.
Для технического обслуживания или сложных операций, например, замены батарей у ИБП, создаются процедуры по ведению обслуживающих работ (Methods of Procedures, MOP). Они могут включать в себя SOP’ы. У каждого типа инженерного оборудования должны быть свои MOP’ы.
Наконец, есть аварийные эксплуатационные процедуры (Emergency Operating Procedures, EOP) — инструкции на случай аварии. Составляется список конкретных аварийных ситуаций, и для них пишутся инструкции. Вот часть списка аварийных ситуаций, по которым подробно расписываются признаки аварии, действия, ответственные лица и лица для уведомления:
Составить такой объем документации — сама по себе трудоемкая работа. Еще сложнее поддерживать ее в актуальном состоянии (это, кстати, аудиторы тоже проверяют). И главное — персонал должен знать эти инструкции, работать по ним и вносить улучшения при необходимости.
Да, инструкции должны быть доступны там, где они могут понадобиться, а не просто пылиться в архивах.
Отметки об изменениях в регламенте обслуживания инженерных систем дата-центра.
В ходе аудита также смотрят на техническую документацию по системам, исполнительную и рабочую документацию, акты сдачи систем в эксплуатацию.
Маркировка. Во время обхода по дата-центру проверяли ее везде, куда только могли дотянуться. Куда не могли дотянуться — дотягивались со стремянки:). Смотрели на ее наличие на каждом щите, автомате, клапане. Проверяли уникальность, однозначность и соответствие актуальным схемам исполнительной документации. На фото ниже: мы в насосной топливохранилища сравниваем маркировку на электромагнитных клапанах со схемой исполнительной документации.
С ней все сошлось, а вот с местной «декоративной» аксонометрической схемой на стене в одном параметре не совпало.
В помещениях дата-центра также должны висеть схемы расположенных там систем. В случае аварий они помогают быстро сориентироваться, где что находится, и принять информированное решение. На фото, например, однолинейная схема в помещении ГРЩ.
Актуальность схем проверяли так: называли маркировку элемента на схеме и просили показать «на натуре».
Вот тут аудитор фотографирует настройки (уставки) расцепителя вводного автомата ГРЩ, чтобы потом сверить с показателями на однолинейной схеме в бумажном и электронном экземплярах. На одном из автоматов, QF-3, показатель не совпал с бумажной схемой, и мы заработали штрафной балл. Теперь два инженера будут проверять на соответствие маркировку в однолинейных схемах с фактом.
Это далеко не все, что проверяли аудиторы в части процессов обслуживания. Вот что еще было на повестке:
На что еще смотрел UI
Безопасность и контроль доступа. В ходе аудита также проверяют работу систем охраны и безопасности. Например, аудитор попробовал попасть в одно из помещений, куда у него нет доступа, а потом проверил, отразилось ли это в системе СКУД и было ли оповещение об этом у охраны (спойлер — было).
Если в наших дата-центрах дверь в любое помещение остается открытой более двух минут, то на посту охраны срабатывает оповещение. Чтобы проверить это, аудиторы подперли одну из дверей огнетушителем. Правда, сирены мы так и не дождались — охрана увидела неладное через видеокамеры и прибыла на «место преступления» раньше.
Порядок и чистота. Аудиторы смотрят, нет ли пыли, хаотично валяющихся коробок от оборудования, с какой периодичностью убирают помещения. Вот тут, например, аудиторов заинтересовал неопознанный объект в вентиляционном коридоре. Это блок от системы вентиляции, который уже готовился занять свое место. Но все равно попросили подписать.
Еще в тему порядка в дата-центре — вот такие шкафы со всеми необходимыми инструментами для аварийных работ на оборудовании стоят в помещении ГРЩ.
Месторасположение. Дата-центр оценивают по условиям местоположения — нет ли поблизости военных баз, аэропортов, рек, вулканов и прочих опасных объектов. На фото мы как раз показываем, что с момента прошлой сертификации в 2017 году вокруг дата-центра не выросло никаких АЭС и нефтехранилищ. Зато вон там строится новый дата-центр NORD-5, которому тоже предстоит пройти все ступени сертификации Uptime Institute Tier III. Но это уже совсем другая история).