skip to Main Content

Дежурная служба подразделения эксплуатации центра обработки данных, как и служба клиентского сервиса, является одним из главных индикаторов, по которому судят о реальном качестве услуг ЦОД. И это не просто так: от подготовки инженеров ЦОД, оперативности и качества их взаимодействия с системами жизнеобеспечения клиентского оборудования напрямую зависит соблюдение договора об уровне оказания услуг (SLA). Это является главным репутационным фактором для практически любого уважающего себя оператора центра обработки данных.

Информационная справка

В дата-центрах IXcellerate дежурная служба клиентского сервиса и дежурная служба эксплуатации ЦОД являются разными подразделениями, но работают в тандеме на одну конечную цель – повышение уровня удовлетворенности клиентов. Клиентский сервис отвечает непосредственно за взаимодействие с клиентами и обработку всех входящих запросов, а дежурные инженеры эксплуатации ЦОД контролируют все инженерные системы, к которым подключено клиентское оборудование, и оповещают клиентский сервис о любых изменениях.

Достаточно представить себе такую аналогию: дежурная служба ЦОД – это как управляющая компания в вашем доме. Она отвечает за то, чтобы к вашей квартире были подведены и хорошо работали электричество, вода, газ, Интернет, телефон и т. д. А клиентский сервис – это те ребята, которые следят, чтобы вы внутри своей квартиры, например, выключали вовремя газ, правильно настроили модем, а в период отключения горячей воды (читатели не из России не поймут) знали, как включить водонагреватель. При условии, что вы заранее позаботились о его приобретении, конечно.

Мы поговорили с руководителем дежурной службы ЦОД IXcellerate, Максимом Малютиным, который нам подробно рассказал, из чего складываются будни его коллег, на какие этапы делятся смены, какие процедуры применяются в случае возникновения нештатных ситуаций.

Максим, расскажите, чем именно занимается ваша служба?

Как работает дежурная служба дата-центра или один день из жизни инженера ЦОДДежурная служба отвечает за эксплуатацию инженерного оборудования ЦОД. Мы первыми реагируем на любые внештатные ситуации и осуществляем полный контроль над инженерными системами, а также действиями коллег из сервисной команды и подрядных организаций. Если изменяется режим работы инженерного оборудования ЦОД или происходит поломка, то мы узнаём об этом в первую очередь, и все начальные шаги/действия в этом процессе, как правило, именно наши. Это суперответственная работа.

Какое место в этом уравнении занимает служба клиентского сервиса? На каком этапе ваша деятельность пересекается?

В ранние годы IXcellerate, когда ЦОД был только один и оборудования было не так много, эти две службы были объединены. Со временем наша площадка значительно расширилась, увеличилось количество дата-центров, стоек, кондиционеров, трансформаторных подстанций, распределительных сетей и т. д. Тогда руководство компании приняло решение о разделении службы на две разных. Одна занимается вопросами клиентского сервиса, то есть непосредственно взаимодействует с нашими уважаемыми клиентами и оказывает их сотрудникам поддержку по вопросам ввоза/вывоза оборудования, сопровождения неавторизованных инженеров, выполняет услуги «Remote Hands», помогает с вопросами подключения кроссировок к операторам и т.д. А вторая – это дежурная служба эксплуатации, которая контролирует и отвечает за исправное состояние и корректную работу всего инженерного оборудования ЦОД.

Мы обрабатываем все ситуации, связанные с оборудованием заказчиков, среди которых: подключение серверных стоек, контроль за температурой и влажностью, мониторинг электро- и холодоснабжения, и других параметров. При необходимости информирования клиентов мы взаимодействуем со службой клиентского сервиса.

Давайте лучше на примере. Допустим, рядом с клиентской стойкой зафиксировано повышение температуры. Дежурные инженеры видят это через систему мониторинга и направляют туда сотрудника на осмотр оборудования для установления причин. При осмотре выясняется, что в это время с оборудованием данной стойки работал сотрудник клиента, который демонтировал часть оборудования и не установил заглушки со стороны холодного коридора, что спровоцировало рост температуры возле указанной стойки. Чтобы возобновить температурный режим необходимы совместные усилия двух наших команд: дежурные инженеры эксплуатации сообщают дежурным клиентского сервиса о месте и причине повышения температуры и незамедлительно начинают предпринимать действия по ее снижению, в то время как дежурный инженер клиентского сервиса взаимодействует с клиентом и фиксирует ситуацию через клиентский портал. Это позволяет действовать быстрее, т.к. процессы уже идут параллельно: один сотрудник коммуницирует с клиентом, а второй уже реагирует на изменения в работе оборудования.

monitoring
monitoring 2 1

В каком режиме работает ваша служба?

Поскольку наши дата-центры работают круглогодично 24/7, дежурные инженеры всегда следят за оборудованием и работают посменно – сутки/через трое. Весь график работ утверждается на месяц вперёд.

Расскажите о распорядке смены более подробно, из каких рутинных действий или проверок состоит день, на какие этапы он делится?

В течение дня основная работа — это мониторинг всех инженерных систем.

Мы отслеживаем все параметры ЦОД, их там в совокупности несколько сотен, а всего точек снятия показаний десятки тысяч.

Сотрудники приходят на работу заблаговременно до начала своей смены. Происходит пересменка: это целый алгоритм действий, из которых главное – передать информацию о всех возникших ситуациях за предыдущую смену. Начальник дежурной смены должен четко понимать, в каком состоянии находится объект. Какие холодильные машины или кондиционеры были отключены, с чем это было связано, проводилось ли техническое обслуживание и, если да, то на какое оборудование была переведена нагрузка, ну и так далее.

Как работает дежурная служба дата-центра или один день из жизни инженера ЦОДУ службы эксплуатации есть утвержденный годовой план по предупредительным ремонтам и техническому обслуживанию, в соответствие с которым инженеры сервисной команды выполняют обслуживание инженерного оборудования. Коллеги передают в дежурную службу наряд на работы, допустим, на плановое отключение прецизионного кондиционера. Они эти работы проводят, а дежурные инженеры осуществляют мониторинг. Наша задача в это время – следить за состоянием клиентской инфраструктуры, которая может оказаться при этом затронутой.

Также у нас существуют рутинные обходы. Они делятся на два типа: обход внутренних помещений (в т.ч. машинных залов) и обход уличных инженерных систем (дизель-генераторы и холодильное оборудование).

На что вы специально обращаете внимание во время этих обходов?

*Максим достаёт типовой лист обхода и показывает его мне*.

Вот типовой лист обхода ЦОД МOS1, он проводится четыре раза в сутки. В листе обхода прописана программа обхода и блок-схема. Как правило, обход начинается с помещения дежурной службы, продолжается в зоне разгрузки, далее — к системе пожаротушения, затем в клиентскую зону, потом в машинный зал и т.д.

*В это время в системе мониторинга срабатывает сигнал оповещения. Максим немедленно обращается к своим коллегам, следящим перед мониторами*.

— Просадка? — спрашивает он. — Вот сейчас как раз мы наблюдаем, пришёл сигнал о просадке напряжения от городского электроснабжения. Один из наших дежурных остаётся на мониторинге и информирует клиентский сервис, второй сразу же идёт на осмотр инженерного оборудования. Любая ситуация может возникнуть внезапно, мы должны быть к подобному готовы всегда.

Какие могут быть причины для таких просадок? Это частая ситуация?

Мы готовы к абсолютно любым сценариям. Любое оповещение о просадках или отключениях не является штатным по определению, но у нас все алгоритмы отработаны.

Такое иногда случается. Вариантов может быть несколько. Наиболее частая причина – короткое замыкание на городском питающем центре. Бывает, что такое происходит во время плановых работ по техническому обслуживанию инженерного оборудования или когда клиенты разбирают свою стойку, куда-то переезжают, переставляют.

Недавно мы проводили отключение стойки с одним из наших клиентов в ЦОД MOS2, они привозили своих специалистов для участия в этой тренировке. Мы совместно отрабатывали взаимодействие на случай возникновения таких ситуаций в будущем.

Давайте вернёмся к листу обхода и рутинным осмотрам. Зачем вы их делаете, если у вас все параметры отображаются в реальном времени в системе мониторинга?

Да ещё и четыре раза в день! *Смеётся* Действительно, всё сведено в программу, но мы всегда закладываем какие-то погрешности или неточности, этого исключать нельзя. Допустим, во время обхода дежурный инженер зафиксировал посторонний шум в работе оборудования. А в системе мониторинга никаких отклонений нет. И разницу между тем, что мы видим у себя в системе и реальными показателями иногда можно обнаружить только при физическом осмотре оборудования. Таким образом, мы осуществляем двойной контроль, это тоже крайне важно.

Все показатели, которые дежурные инженеры должны снять, все объекты контроля – всё это прописано. Что осматривается, как, какие параметры сверяются, что должно быть, чего не должно быть. Вся работа, за исключением внештатных, аварийных ситуаций, плановая. Всё очень строго зарегламентировано и отлажено.

А после осмотра вы возвращаетесь и сверяете данные, верно? И что потом?

Верно.

После завершения обхода дежурные инженеры продолжают осуществлять мониторинг и контроль за проведением работ коллегами из сервисной команды и подрядных организаций. Где-то с 18:00 становится поспокойнее, коллеги завершают работы, что-то переносится на следующие дни. По завершению работ мы отслеживаем, чтобы вся инфраструктура была в штатном режиме. Ну и потом — вечернее и ночное дежурство.

Какие обычно самые активные часы?

Когда инженеры сервисной команды проводят техническое обслуживание оборудования. Это, как правило, происходит днем. Множество включений, переключений мощностей, смены нагрузок. Сотрудники клиентов работают со стойками, периодически проводят работы в холодных коридорах, могут перекрыть доступ воздуха из-под фальшпола, мы должны прийти и проинформировать, что так делать не стоит. Много всего! Это самое ответственное время.

IXcellerate 5914 scaled 1
IXcellerate 7805 scaled 1

Что происходит в конце вашей смены?

В конце смены мы передаём график, план обхода, а также оперативный журнал с зафиксированными событиями за день. Каждая смена должна быть в курсе всех таких событий, как минимум, за последние две недели. Люди уходят в отпуск, могут заболеть, а так как наши объекты должны работать исправно всегда, дежурный инженер, приходя на смену, должен четко понимать, что происходило до него.

То есть у каждого из вас в голове есть представление о том, что происходило за две недели до заступления в смену?

Всё верно.

Невероятно! Большое спасибо и удачи вам!

Материал подготовил Константин Саркисов

Back To Top