| Техническое обслуживание ЦОД.
 
 Техническое обслуживание ЦОД (центра обработки данных, серверной) – это поддержание всех компонентов и систем ЦОД в рабочем состоянии, своевременное устранение неисправностей и предупреждение сбоев.
 
 Обслуживание ЦОД (серверной) осуществляется в соответствии с разработанным и принятым Заказчиком регламентом технического обслуживания.
 
 В состав работ по сервисному обслуживанию ЦОД входят контроль и техническое обслуживание оборудования инженерных систем ЦОД, а именно:
 
 
            Системы безопасности: пожарная сигнализация, система пожаротушения, охранная сигнализация, система контроля доступа, видеонаблюдение (СБ).
 
Система вентиляции и кондиционирование технологических помещений (СКТП).
 
Система электроснабжения в составе систем гарантированного и бесперебойного электропитания (СЭ).
 
Структурированная кабельная система (СКС).
 
Система мониторинга оборудования и параметров среды (СМ).
 
 Надо заметить, что способность организовать профилактический ремонт – т.е. выполнить ремонт до возникновения неисправности – занятие сродни искусству. В это деле серьезную помощь техническому персоналу оказывает грамотно организованный мониторинг технических параметров всех систем. Возможность удаленно контролировать основные параметры работы ЦОД в режиме реального времени позволяет оперативно реагировать на возникающие сбои и предугадать их.
 
 Работы по техническому обслуживанию ЦОД:
 
 
            техническое обслуживание;
 
плановый текущий ремонт;
 
плановый капитальный ремонт;
 
внеплановый ремонт;
 
наблюдение за правильной работой оборудования;
 
периодический осмотр и контроль за техническим состоянием оборудования;
 
устранение обнаруженных дефектов;
 
регулировка;
 
настройка;
 
опробование и поверка.
 
 
 Как организовать эффективное выполнение этих объемов работ?
 
 Система управления эксплуатацией центра обработки данных состоит из нескольких связанных друг с другом больших разделов:
 
 
            управление персоналом;
 
поддержание документации в актуальном состоянии;
 
управление договорами;
 
техническое обслуживание и ремонт;
 
управление движением расходных материалов и запасных частей;
 
мониторинг состояния систем и организация оперативного управления.
 
 Персонал. Служба эксплуатации может комплектоваться как собственным персоналом, так и привлеченным из сторонних компаний, которые на аутсорсинговой основе выполняют какие-либо работы. Наем собственного персонала – непростая задача для HR-служб, так как для большинства позиций требуется достаточно высокая квалификация. Если в крупных городах среди соискателей приходится проводить конкурс, то в удаленных регионах, где в последнее время стали появляться ЦОДы, отделу кадров бывает нелегко найти хотя бы одного кандидата, отвечающего всем требованиям.
 
 Документация. Перечислим типы документации, без которых невозможна правильная эксплуатация дата-центра:
 
 • проектная и исполнительная документация по всем разделам, начиная с генплана и заканчивая специальными разделами проектов;
 
 • инструкции по эксплуатации каждой инженерной системы;
 
 • инструкции по эксплуатации оборудования в инженерных системах;
 
 • паспорта на системы, оборудование;
 
 • сертификаты;
 
 • гарантийная документация;
 
 • акты испытаний, поверки и т.д.;
 
 • карты технического обслуживания оборудования, регламенты проведения работ;
 
 • список запасных частей и расходных материалов для каждой инженерной системы;
 
 • журналы проведения инструктажей по технике безопасности и пожарной безопасности;
 
 • карточки учета средств индивидуальной защиты и спецодежды;
 
 • должностные инструкции;
 
 • инструкции по действиям в нештатных ситуациях;
 
 • инструкции по правилам поведения в дата-центре для посетителей;
 
 • договоры с внешними организациями (поставки топлива, аренды, уборки и т.п.).
 
 ЦОД – «живая» система, в которой постоянно что-то модернизируется, налаживается или демонтируется. Все эти изменения должны надлежащим образом отображаться в исполнительной документации и соответствующих инструкциях.
 
 Техническое обслуживание и ремонт. Важнейшая часть эксплуатации ЦОД – поддержание всех инженерных систем в работоспособном состоянии. Эта задача решается путем проведения планового технического обслуживания оборудования и систем на основании регламентов, а также ремонта или замены оборудования, вышедшего из строя. Служба эксплуатации дата-центра своими силами или с помощью подрядчиков должна разработать регламенты технического обслуживания всех систем. В регламенты включаются сведения об оборудовании, периодичности или сроках проведения ТО, описание операций по обслуживанию, информация о необходимом инструменте, расходных материалах и запасных частях. На основании регламентов составляются перечни материалов и запчастей, которые передаются в службы закупки. Поставки комплектов расходников должны осуществляться в строго оговоренные сроки. Для быстрого восстановления работоспособности оборудования в дата-центре должен храниться комплект запчастей. Перечень ЗИП для ремонта инженерных систем обычно разрабатывается с участием поставщиков (вендоров), а также исходя из практического опыта эксплуатации и статистики выхода из строя элементов систем. Актуальная информация о ЗИП должна быть доступна ремонтным службам. Система хранения должна обеспечивать быстрый поиск необходимой детали и ее выдачу. По мере расходования комплекта ЗИП его необходимо пополнять, обеспечивая некий неснижаемый остаток (запас).
  
 Существуют три основных подхода к техническому обслуживанию и ремонту:
 
 • выполнение работ собственными силами;
 
 • выполнение работ сотрудниками сторонних организаций;
 
 • выполнение работ как собственными силами, так и сотрудниками сторонних организаций.
 
 В большинстве российских дата-центров практикуется смешанный вариант. Это позволяет минимизировать затраты и гарантировать качество работ. Как правило, на аутсорсинг отдаются сложные работы, требующие высокой квалификации работников и специализированного инструмента.
 
 Контракты со сторонними организациями.[12] Сторонние организации привлекаются не только для технического обслуживания оборудования. Поставка электроэнергии и дизельного топлива, вывоз мусора, утилизация отработанных масел и технических жидкостей, уборка помещений – полный список всех договоров крупного дата-центра может содержать несколько десятков пунктов. Они имеют разную значимость для функционирования ЦОД, но ни об одном из них не следует забывать.
 
 Мониторинг инженерных систем дата-центра. Постоянный мониторинг существенно облегчает контроль состояния систем, позволяет быстро выявлять различные неисправности или прогнозировать их развитие. Система мониторинга – это сложная инженерная система, поэтому для нормального функционирования она требует технического обслуживания, замены неисправных элементов, обновления ПО.
 
 Учет инцидентов. Важную информацию о реальном состоянии инженерных систем дата-центра можно получить при скрупулезном учете всех происходящих в нем инцидентов. Должна быть описана причина возникновения инцидента. Если же назвать точную причину возникновения сбоя сразу невозможно, то в графе «причина» записывается «выход из строя по неизвестной причине», и такие случаи рассматриваются с особой тщательностью. Следующий важный параметр, который должен фиксироваться, – это степень влияния инцидента на работу ЦОД.
 
 Все события можно разбить на три группы:
 
 • практически не влияющие на работу;
 
 • снижающие проектную избыточность инженерных систем;
 
 • влияющие на работу серверных, вплоть до полной остановки дата-центра.
 
 Анализируя данные об инцидентах, можно выявить некоторые тенденции в состоянии инженерных систем и получить статистические данные. Всё это служит материалом для дальнейшего улучшения системы эксплуатации ЦОД.
 
 Помимо этих технических аспектов на службах и отделах эксплуатации инженерных систем лежит ответственность за обеспечение соблюдения организационных и технических способов обеспечения безопасности труда, а это и создание система распределения ответственности, и назначение ответственного за электрохозяйство, и организация работ и допуска к работам.
 
 Организация системы эксплуатации инженерных систем ЦОД процесс сложный и многогранный и только внимательный, комплексный подход ко всем вопросам, внимание к мелочам, может обеспечить достижение приемлемого результата.
 
 Итак, Вы решаете все делать сами.
 
 Где взять стандарты, на что опереться?
 
 Вот список некоторых действующих и будущих стандартов и технических документов, связанных с отказоустойчивостью дата-центров. Они актуальны для проектирования, строительства и эксплуатации ЦОД.
 
 Серия стандартов компании «CENELEC» EN 50600 определяет минимальные требования для инфраструктуры дата-центров всех форм и размеров. Они включают в себя защиту от природных катаклизмов, падений и несанкционированного доступа, включая внутренние и внешние экологические события. В стандарте EN 50600-3-1 рассматриваются измерения, контроль и учет энергопотребления в определенных локациях. При правильном применении этого стандарта он может помочь оценить работу дата-центра, используя разделы из серии стандартов EN 50600-4 и его KPI (Key Performance Indicators, ключевые показатели эффективности). Стандарт EN 50600-4 напрямую управляет факторами эффективности, такими как PUE и REF.
 
 ETSI ES 205 200 определяет так называемые Global KPIs (Глобальные ключевые показатели эффективности), обеспечивая контроль энергоуправления информационно коммуникационных технологий (ИКТ). Этот стандарт предлагает единый глобальный KPI – энергетическое управление обработки данных и коммуникаций –, который определяет четыре целевых KPI: потребление энергии, эффективность выполнения задач, использование возобновляемых источников энергии и повторное использование энергии. Это позволяет определять энергетическую эффективность ИКТ всего предприятия.
 
 ITU-TL.1300 от «ITU-T Study Group 5» в значительной степени основан на инициативе ЕС по уменьшению воздействия на ЦОДы (EU CoC Best Practices V4.0.5) и включает 23 дополнительных пункта. Различия касаются, в частности, предпочтением «ITU-T» ссылаться на диапазон изменения окружающей среды, поддержанный серией стандартов ETSI EN 300 019, нежели на диапазон, указанный в документе Евросоюза.
 
 DIS ISO/IEC 30134, описывающие KPI дата-центра, уже находятся в открытом доступе, но они отражают стандарты JTC 1/SC 39 WG 1 – новая работа от CENELEC. Во избежание дублирования документов рассматривается их включение в Европейский набор стандартов. Международная электротехническая комиссия IEC также рассматривает разработку технического отчета, который бы содержал рекомендации по проектированию дата-центров применительно к управлению ресурсами.
 
 Согласно стандарту энергоэффективного EthernetIEEE802.3az от «IEEE 802.3 Working Group», сетевые устройства и интерфейсы представляют более 10% всего годового потребления энергии, достигая десятков Тераватт. Если смотреть далеко в будущее и предположить, насколько поднимется планка потребностей общества, все лишь усложняется. Пропускная способность увеличивается, количество сетевых соединений увеличивается, количество устройств с возможностью подключения к Wi-Fi увеличивается, спрос на более гибкую инфраструктуру для удовлетворения этих потребностей также увеличивается. В 2010 была представления технология Energy Efficient Ethernet (EEE, энергоэффективный Ethernet) с целью создания механизма и стандарта для уменьшения энергопотребления сетевых интерфейсов без ущерба для их функционала. Несмотря на то что эта технология – новая и есть еще много моментов, которые нужно проработать, лабораторные исследования Cisco и Intel показали, что она может предложить, к примеру, 15% экономии на Cisco 4500 Switch. Сочетая EEE с Wake-on-LAN (WoL) можно добиться экономии до 50%.
 
 Стандарт энергетического управления ISO 50001:2011 предоставляет организациям концепцию для интеграции энергоэффективности в процесс управления. Среди прочего, он включает в себя установку базовых линий, которые измеряются, контролируются и корректируются для обеспечения контроля управления, используя эти данные в качестве базы для текущего прогнозирования, улучшения операций по энергоэффективности, приобретения и повсеместного размещения эффективного низкоэнергетического оборудования.
 
 Стандарт экологического управления ISO 14001:2015 предлагает концепцию обеспечения тщательного контроля интерфейса, чтобы избежать или минимизировать какой-либо негативный экологический эффект. По стандарту ISO 14001 требуется инициативное управление экологическими рисками для поддержки долгосрочных экологических и экономических целей.
 
 Как все организовать?
 
 В статье от 21 января 2014 г. «Классификация подходов к организации эксплуатации инженерной инфраструктуры ЦОД» Заурбек Алехин, Дмитрий Басистый обрисовали идеальную модель организации технического сопровождения, назвав её Тип A «Усовершенствованный». [13]
 
 Это некий идеальный вариант, и в настоящее время ему не соответствует ни один реальный российский ЦОД. Требования к могут быть определены следующим образом:
 
 «ОРГАНИЗАЦИОННАЯ СТРУКТУРА
 
 Выделенное подразделение существует, его задачи определены и формализованы (главная задача – обеспечение надежного и устойчивого функционирования инженерной инфраструктуры ЦОД в краткосрочной и долгосрочной перспективе). Назначены ответственные за реализацию отдельных групп эксплуатационных мероприятий (по всем имеющимся группам мероприятий). Осуществляется мониторинг соответствия процедур взаимодействия организационной структуре, предпринимаются меры по устранению конфликтов и несоответствий.
 
 БИЗНЕС-ПРОЦЕССЫ
 
 – Процессы управления и взаимодействия. Управление инцидентами демонстрирует высокий уровень зрелости, работает эффективно. Осуществляется мониторинг тенденций и проактивное совершенствование процесса. Диспетчерская служба построена в соответствии с передовыми практиками, функционирует исправно и эффективно, мотивирована на самосовершенствование. Соглашения об уровне услуг (SLA) разработаны и применяются для всех систем, параметры соглашений соответствуют реальным требованиям, обеспечен контроль их соблюдения. Организован регулярный пересмотр SLA с учетом прогноза потребностей и изменения эффективности процедур обслуживания. Процедуры взаимодействия документированы и реализованы, функционируют эффективно, организована периодическая их актуализация. Управление проблемами реализовано в полном объеме, включая как обеспечение эффективного реагирования на возникающие инциденты, так и упреждающее выявление потенциальных инцидентов и принятие мер по противодействию им. Качество реализации процессов управления и взаимодействия и их полнота подтверждены независимой сертификацией.
 
 – Процессы обслуживания. Существует качественно реализованный процесс управления обслуживанием, охватывающий все системы инженерной инфраструктуры. Ремонт и обслуживание систем осуществляется в соответствии с рекомендациями производителей. Осуществляется плановая замена оборудования по всем системам в соответствии с рекомендациями производителей и текущим состоянием. Построен и функционирует процесс управления жизненным циклом систем. Осуществляется управление эффективностью обслуживания на основании мониторинга текущего технического состояния систем и отдельных единиц оборудования. Качество реализации процессов обслуживания и их полнота подтверждены независимой сертификацией.
 
 – Обеспечивающие процессы. Осуществляется полномасштабный контроль качества реализации всех эксплуатационных процессов. Своевременно планируются мощностные потребности по критичным системам. Осуществляется планирование и прогнозирование загрузки площадей ЦОД.
 
 РЕСУРСЫ
 
 – Персонал. Наличие квалифицированного персонала по всем системам в достаточном количестве. Достаточный уровень квалификации для устранения аварий и обслуживания систем собственными силами и/или путем привлечения заранее согласованных ресурсов внешних подрядчиков. Осуществляется поддержание квалификации персонала путем регулярного обучения всех сотрудников исполнению процедур обслуживания, регламентов и инструкций. Подготовка и развитие персонала осуществляется планомерно, в рамках единой программы, с учетом текущих и перспективных потребностей, действующих и перспективных технологий. Осуществляется планирование и подготовка кадрового резерва. Квалификация персонала и достаточность его численности подтверждены независимой сертификацией объекта.
 
 – Технологии и инструменты. Обеспечение ЗИП осуществляется в полном объеме в соответствии с требованиями и рекомендациями производителей систем и оборудования. Существует и эффективно функционирует электронная система доступа к документации по оборудованию, включая описание конфигураций, порядка обслуживания и иных регламентных и типовых процедур. Построена и функционирует единая централизованная система управления обслуживанием, реализующая функционал следующих автоматизированных систем:
 
 
            мониторинг параметров систем и оборудования;
 
управление системами и оборудованием;
 
управление инцидентами;
 
управление проблемами;
 
управление обслуживанием;
 
учет оборудования и систем, их текущего состояния и иных эксплуатационных параметров.
 
 Внедрена и используется в повседневной деятельности электронная база данных, обеспечивающая ведение и доступ к нормативной и иной документации по инженерным системам, исполняемым процессам и процедурам и др. Анализ текущего и перспективного состояния инженерных систем ЦОД осуществляется с применением системы моделирования.
 
 – Информация. Имеется и в любое время доступна персоналу эксплуатации документация по всем системам и оборудованию.
 
 – Финансы. Финансирование осуществляется в необходимых объемах в форме выделенного бюджета на эксплуатацию ЦОД, с учетом текущих и перспективных задач и потребностей.
 
 Обслуживание данного типа (по состоянию отрасли на текущий момент) – некоторый идеальный, эталонный вариант, учитывающий в том числе, и перспективные задачи и потребности. Недостатков, как и полагается идеалу, у этого типа нет.
 
 ЦОД воспринимается руководством как важный и критичный элемент функционирования компании в настоящее время и на перспективу. Подход обеспечивает абсолютные гарантии надежности функционирования и доступности инженерной инфраструктуры ЦОД с учетом нынешних и будущих потребностей.»
 
 Вы видите, что организовать подобное содержание оборудования и отношение к нему очень сложно и затратно. Кроме того, инженерное оборудование ЦОД , как правило, очень надежно. И, как следствие, ваш высокопрофессиональный персонал большую часть времени загружен работой не будет.
 
 Для обеспечения требуемой надёжности в составе ЦОД требуется структура обеспечения эксплуатации инженерных систем. Сколько это стоит? Проиллюстрируем на примере [14]:
 
 Функции структуры:
 
 
            осуществляет контроль за работой инженерных систем;
 
восстанавливает работоспособности инженерных систем при сбоях и выходах из строя;
 
проводит работы по техническому обслуживанию инженерных систем;
 
ведёт техническую документацию;
 
разрабатывает технические задания (далее – ТЗ) по созданию и развитию инженерных систем;
 
организует взаимодействие с ресурсоснабжающими организациями по эксплуатации инженерных систем здания.
 
 Можно обеспечить надёжность функционирования систем обеспечивается путём организации круглосуточного дежурства диспетчерского и технического персонала на объекте.
 
 Сложность эксплуатируемых систем и высокие требования к обеспечению надёжности определяют узкую специализацию работников, предъявляя повышенные требования к слаженности при выполнении работ по техническому обслуживанию и при устранении неисправностей.
 
 Диктуемая рынком труда величина оплаты услуг технических специалистов составляет (по данным одной из уважаемых компаний). Единица инженер (инженер-механик, инженер-электрик). Сумма затрат предприятия составляет 908 856.00 руб./год (75 738,00 руб./мес.) из расчёта:
 
 оклад 39 600,00 руб.;
 
 премия 50% 19 800,00 руб.;
 
 ПФ 20% 11 880,00 руб.;
 
 Соц. стр. 2,9% 1722,60 руб.;
 
 Мед.стр. 2%+1,1% 1 841,40 руб.;
 
 Стр. от несч. сл. 1,5% 594,00 руб.
 Инженерные системы ЦОД, как устройства, находящийся под электрическим напряжением, могут обслуживаться только двумя работниками с группами допуска по электробезопасности IV и III (п.п. 4.2.4., 4.2.5.). Следовательно, количество дежурных специалистов, обслуживающих любую установку не может быть меньше двух. При уходе на больничный или в отпуск одного из работников – работы останавливаются, следовательно, необходим резерв персонала.
 
 |