skip to Main Content

Что такое мониторинг систем ЦОД?

Центр обработки данных – это сложный технологический организм, который состоит из множества элементов и инженерных систем. Все эти узлы функционируют и взаимодействуют между собой для того, чтобы обеспечить бесперебойного работу серверного и телекоммуникационного оборудования.

Принимая на хранение клиентскую инфраструктуру, оператор дата-центра должен сделать максимум для того, чтобы все системы жизнеобеспечения машинного зала – кондиционирования, вентиляции, пожаротушения и т. д. − работали безупречно. Для начала − построить высоко технологичный объект, а далее – поддерживать его в идеальном состоянии и избегать аварий и сбоев.

Александр Коняев

Для уверенности в том, что все системы работают в штатном режиме, нужен постоянный контроль, который как раз и обеспечивает система мониторинга инженерных систем. С ее помощью ведется наблюдение за всеми технологическими процессами и компонентами, которые входят в состав ЦОД, производится оценка их состояния и прогноз внештатных ситуаций.

Александр Коняев, главный инженер Южного кампуса IXcellerate

monitoring ingeneer cod1

Цель мониторинга – оперативно обнаруживать ошибки в работе инженерной инфраструктуры и предотвращать неполадки, обеспечивая надежную работу всего дата-центра.

Система фиксирует любое, даже самое незначительное отклонение от нормы (например, повышение температуры в машинном зале) и сигнализирует об ошибке.

Своевременно полученный сигнал позволяет принять меры и не допустить изменение показателей до критичных – аварийных значений.

На каком этапе жизнедеятельности дата-центру нужна система мониторинга?

Было бы ошибкой думать, что целесообразность внедрения системы мониторинга зависит от каких-либо параметров ЦОД, например, его мощности или количества стоек. Мониторинг инженерных систем необходим любому дата-центру, и позаботиться об этом необходимо на этапе проектирования, то есть, практически с «первого кирпича».

После запуска объекта внедрить систему будет очень сложно, по меньшей мере понадобится приостанавливать работу ЦОД, что в принципе недопустимо.

В систему мониторинга поступает информация от сотен объектов внутри дата-центра. Ее передают трансформаторы, счетчики электроэнергии, ИБП и другие компоненты инженерной инфраструктуры.

Это большая, сложная система, и все ее элементы − датчики, котроллеры, анализаторы тока и т. д. – следует подобрать на этапе проектирования ЦОД, а также спланировать их расположение, решить, с какими протоколами обмена данных они будут работать, оценить совместимость и т. д.

monitoring ingeneer cod2

Проектная документация

Документация по проектированию системы мониторинга центра обработки данных содержит следующие параметры:

  • список оборудования,
  • архитектура системы (схема расстановки оборудования и расположения датчиков, схема подключения контроллеров к сети и т. д.),
  • список всех отслеживаемых параметров с заданными значениями,
  • пороговые значения (для определения предаварийных и аварийных ситуаций).

Пороговые значения определяются, в первую очередь, ГОСТами, опытом эксплуатации тех или иных систем, а также параметрами SLA. Так, например, по отраслевым нормативам уровень напряжения не должен превышать 220 В +/- 10%. Однако в работе с клиентами дельта недопустима: по SLA мы должны обеспечивать им «чистое» напряжение в 220 В, ни на один вольт больше и ни на один вольт меньше − никаких просадок быть не может.

Обычно прописывается два вида аварийных оповещений – предупреждения об отклонении от нормы и критический уровень отклонений. Первая ситуация расценивается как предаварийная, вторая – как чрезвычайная. Так, например, снижение температуры в машинном зале на два градуса с 23 до 21 будет идентифицировано как предупреждение (предаварийная ситуация), а если температура опустится ниже 20 градусов – сработает сигнал аварии, требующей немедленной ликвидации.

Исполнительная документация

Помимо технологического проекта следует разработать также регламенты и инструкции для персонала. В этих документах фиксируется план действий на случай отклонения показателей от нормы. Дежурный инженер должен четко понимать, что делать в случае предаварийной или аварийной ситуации, чтобы локализовать ситуацию и не допустить коллапса.

Обязательная составляющая системы мониторинга ЦОД – это аварийные карты, которые готовятся профильными инженерами. Для каждой карты – отдельный специалист, поскольку план действий в случае пожара отличается от плана действий в случае протечки кондиционера. Объединяя технологии и регламенты, мы получаем высоко эффективный механизм управления инженерной инфраструктурой ЦОД.

Какие параметры отслеживает система мониторинга?

monitoring ingeneer cod3

Основные зоны мониторинга в ЦОД – это:

  • электроснабжение (напряжение в ИБП, сила и частота тока, уровень топлива в баке ДГУ),
  • холодоснабжение (температура в помещениях, давление хладогента, отсутствие протечек),
  • вентиляция и кондиционирование воздуха (температура на входе и выходе из кондиционера, скорость вращения вентиляторов),
  • пожарная сигнализация (возгорание, уровень задымления).

Аварии в дата-центре могут происходить не только из-за сбоев оборудования, но и по вине людей, поэтому отдельной функцией системы мониторинга является обеспечение безопасности. Основная задача системы – не допустить несанкционированный доступ в помещения ЦОД. Для поддержания контроля внутри объекта устанавливаются охранные извещатели (датчики).

Система показывает, через какую дверь вошел человек, фиксирует номер его идентификационной карты, отслеживает маршрут. Тревожная сигнализация срабатывает в случае несанкционированного открытия двери или окна, разбития стекла или движения внутри помещения. В этих случаях система передает оповещение на пульт охраны, дежурный выполняет по видеокамерам осмотр и, при необходимости, следует к источнику тревоги, предварительно и при необходимости заблокировав двери.

Принципы работы системы мониторинга

Система мониторит, как функционирует подконтрольное оборудование, фиксирует возникающие ошибки и отслеживает заданные параметры. Их количество может исчисляться десятками и даже сотнями. Так, например, для первой очереди ЦОД MOS5 в нашем Южном кампусе установлено 16 ИБП и на каждый из них приходится несколько десятков контролируемых параметров.

Оборудование. Для снятия первичной информации используются датчики, которые передают полученные данные на контроллеры. Далее вся информация аккумулируется в системе и через единый интерфейс выводится на экран в центре мониторинга ЦОД. Дежурные инженеры отслеживают показатели круглосуточно.

Детализация данных. На экранах мониторов отражаются все самые важные параметры. Специалист видит картину целиком и при необходимости открывает отдельные вкладки – углубляется в детали. Например, отслеживая уровень напряжения в системе, он может посмотреть параметры по каждому вводу по отдельности.

Частота «опросов». Частоту «опросов» также можно настроить. Будет ли система снимать показания раз в секунду или раз в минуту – зависит от уровня критичности того или иного параметра.

Николай Лукин

В наших дата-центрах мы отслеживаем показатели температуры и напряжения не реже одного раза в секунду. Чем чаще поступают данные, тем лучше, так как скачок напряжения или температуры может произойти внезапно, и пропустить его ни в коем случае нельзя.

Николай Лукин, руководитель направления слаботочных систем IXcellerate

Визуализация. Для удобства отслеживания и наглядности все контролируемые системы и их параметры визуализируются виде схем и карт. Как будут выглядеть показатели на экране – решается заранее. Каждый дата-центр может настроить визуализацию под себя. В процессе разработки экранов специалисты анализируют, насколько та или иная визуальная подача информации приятна для глаз, и подбирают подходящие и интуитивно понятные варианты. Так, например, система автоматической пожарной сигнализации не только оповещает о задымлении, но и показывает место срабатывания датчика, чтобы дежурный сразу увидел на плане, где появилось возгорание.

Оповещения. В случае аварийных ситуаций система мониторинга выводит данные на экран (в заданном визуальном формате) и рассылает оповещения с расшифровкой аварии (в формате СМС и e-mail) всем ответственным лицам.

Сбор статистики. Все данные, поступающие в систему, агрегируются, архивируются и хранятся на отдельном сервере не менее одного года. Это дает возможность анализировать, как вела себя та или иная система в определенный промежуток времени − как держался заряд на батареях, какую температуру поддерживал кондиционер, как часто происходили сбои и т. д. На основе этих данных можно скорректировать работу того или иного прибора.

Резервирование. Для сбора и хранения данных, поступаемых в систему мониторинга, используется отдельное серверное и сетевое оборудование. Для организации резервирования потребуется как минимум два сервера, чтобы при выходе из строя одного из них мониторинг продолжил работать на втором. Мониторы в центре мониторинга также должны быть подключены к бесперебойному питанию с резервом.

Центр обработки данных, не оснащенный системой мониторинга, не может обеспечивать уровень доступности оборудования и надежности сервисов, который требуется современному бизнесу. Помимо этого, постоянный контроль работы инфраструктуры помогает увеличить ее сохранность и срок службы за счет достижения оптимальных параметров эксплуатации и своевременной реакции на любые сбои.

monitoring ingeneer cod4
+7-495-8000-911
Back To Top