Локальные перегревы: как устранить причину, а не ликвидировать последствия » IXcellerate
skip to Main Content
Локальные перегревы: как устранить причину, а не ликвидировать последствия

Развитие искусственного интеллекта и машинного обучения, повсеместная цифровизация услуг и лавинообразный рост объемов данных формируют особые требования к вычислительным мощностям и, как следствие, инфраструктуре центров обработки данных. Бесперебойность работы ЦОД становится критически важным фактором для бизнеса любого масштаба.

Отказоустойчивость дата-центра обеспечивается множеством инженерных систем. Одна из ключевых – это система охлаждения. Перегрев серверного оборудования даже на несколько градусов может привести к ошибкам, отключениям, нарушению целостности данных и финансовым потерям, связанным с нарушением SLA.

Таким образом, наличие надежной системы кондиционирования выходит на первый план при проектировании и эксплуатации современных ЦОД.

Как организовано охлаждение оборудования в дата-центрах?

Эволюция систем охлаждения: от CRAC к CRAH и жидкостному охлаждению

«Рабочими лошадками» первых поколений ЦОД были системы CRAC (Computer Room Air Conditioners), которые используют механическое охлаждение с помощью фреона и которые являлись, по сути, автономными кондиционерами. Эти установки пользуются большой популярностью благодаря своей относительной простоте и самостоятельности, но обладают существенным недостатком − низкой энергоэффективностью по сравнению с более современными системами.

Следующим шагом стали CRAH-установки (Computer Room Air Handlers), которые не имеют собственного холодильного контура и используют теплообменники, через которые пропускается охлажденная вода или жидкость.

Ключевое преимущество CRAH — высокая энергоэффективность. Чиллеры, особенно со свободным охлаждением (free cooling), могут значительно снизить энергопотребление системы в холодное время года, используя низкую температуру наружного воздуха.

В дата-центре IXсellerate МOS5 реализована система охлаждения на базе CRAH. Машинный зал спроектирован бесфальшпольным помещением  с полностью изолированными горячими коридорами.

Устройства CRAH расположены в отдельной вентиляционной камере, что облегчает их обслуживание и не требуют нахождения сервисного инженера в машзале на время проведения работ.

Система кондиционирования машинного зала
Система кондиционирования машинного зала

С появлением высокоплотных серверов (с нагрузкой 40 кВт на стойку и выше) традиционного воздушного охлаждения становится недостаточно, и на замену воздушному охлаждению приходит жидкостное или гибридное водовоздушное охлаждение, которые позволяют в разы увеличить плотность размещения оборудования и снизить энергозатраты на его охлаждение.

Вместе с системами охлаждения меняются и стандарты. Рекомендации ассоциации ASHRAE TC 9.9 по температурным режимам в машинных залах за последние годы претерпели значительные изменения. Если ранее для класса оборудования А1 нормой считалась температура 18-22°C, то сегодня рекомендуемый диапазон расширен до 18-27°C, и даже до 32°C для некоторых классов оборудования. Этот сдвиг обусловлен повышением термостойкости серверных компонентов и стремлением к снижению энергозатрат (каждый «лишний» градус охлаждения приводит к перерасходу электроэнергии).

3D-вид машинного зала с гибридной системой охлаждения
3D-вид машинного зала с гибридной системой охлаждения
IXcellerate спроектировала специальную лабораторию для отработки решений по размещению суперкомпьютеров мощностью до 200 кВт с применением гибридной системы водяного и воздушного охлаждения.

Результаты экспериментов лягут в основу colocation-сервисов для AI/ML-инфраструктуры в новых дата-центрах компании.

Машзал оснащен драйкулерами с адиабатическим предохлаждением и холодными стенами на фреоновом контуре. Эти решения обеспечивают надежный теплоотвод даже при экстремальной концентрации вычислительных мощностей.

Локальные зоны перегрева: невидимая угроза

Расширение температурных диапазонов и стремление к повышению энергоэффективности выявило парадоксальную проблему: даже при наличии достаточной холодильной мощности и соблюдении рекомендаций ASHRAE, в машинных залах возникают локальные зоны критического перегрева. Эти «горячие точки» могут образовываться в отдельных стойках или даже на уровне серверов, при этом общие датчики температуры зала показывают нормальные значения.

Чтобы избежать подобных ситуаций и обеспечить надежность дата-центра, необходимо понимать природу и механизмы возникновения локальных перегревов. Их основная причина — это нарушения в разделении воздушных потоков, из-за которых могут возникнуть два негативных явления:

  • Горячий воздух на выходе со стороны серверов (горячий коридор) захватывается не полностью и попадает обратно на вход (в холодный коридор). В результате оборудование потребляет уже нагретый воздух, и эффективность его охлаждения снижается.
  • Холодный воздух из холодного коридора, не проходя через серверное оборудование, сразу возвращается в систему охлаждения, что приводит к бесполезной трате холодильной мощности.
Зона перегрева из-за отсутствующих заглушек серверного шкафа
Зона перегрева из-за отсутствующих заглушек серверного шкафа
Алексей Забельников, Руководитель группы эксплуатации систем ОВиК Южного кампуса IXcellerate

«Локальные перегревы — результат комплексного взаимодействия нескольких факторов, каждый из которых требует внимания при проектировании и эксплуатации ЦОД».

Алексей Забельников, Руководитель группы эксплуатации систем ОВиК Южного кампуса IXcellerate

Первопричиной большинства проблем является нарушение герметичности. Даже небольшая щель площадью 10–15 см² может пропускать до 30–50 м³/час горячего воздуха, что критично для высокоплотного оборудования. К основным конструкционным недостаткам относятся:

  • негерметичность горячих/холодных коридоров: зазоры между стойками, отсутствие или неполное закрытие заглушек в неиспользуемых юнитах, отсутствие щеточных уплотнений для кабельных вводов,
  • неправильная изоляция зон: недостаточное закрытие торцов рядов стоек, отсутствие дверей в горячих коридорах, щели в фальшполе или подвесном потолке,
  • кабельная инфраструктура: избыточное количество кабелей, проходящих через стойку, создает препятствия для воздушного потока и дополнительные пути рециркуляции.

Также негативную роль играет неправильное размещение оборудования, что вызывает неравномерное распределение тепловых нагрузок:

  • концентрация высокомощного оборудования: размещение серверов с высоким тепловыделением в одной части стойки создает локальную «горячую зону», с которой система охлаждения не справляется,
  • неправильная ориентация оборудования: установка серверов с разнонаправленными схемами воздушного потока (front-to-back и back-to-front) в одну стойку приводит к циркуляции горячего воздуха внутри стойки,
  • блокировка воздушного потока: размещение крупногабаритного оборудования (storage-системы, сетевое оборудование) перед серверами с высоким тепловыделением.

Проблемы могут быть связаны с некорректной работой самих систем охлаждения − неправильной балансировкой воздушных потоков или недостаточным статическим давлением, создаваемым вентиляторами CRAH. На них также влияют настройки вентиляторов в стойках.

Отдельной и часто недооцененной причиной возникновения локальных перегревов является конфигурация системы охлаждения внутри серверного оборудования — алгоритмы работы его собственных вентиляторов. Неправильная настройка или работа системы охлаждения на уровне сервера не только угрожает самому этому устройству, но и выступает как активный дестабилизирующий фактор для всей системы терморегуляции стойки и машинного зала в целом.

Современные методы диагностики и мониторинга

Борьба с локальными перегревами начинается с их своевременного и точного обнаружения. Современный ЦОД использует многоуровневую систему мониторинга. Ее основными элементами являются моделирование, мониторинг в реальном времени и инструментальные методы контроля.

CFD-модель распределения воздушных потоков
CFD-модель распределения воздушных потоков
  • Создание точной 3D-модели машинного зала с учетом всех стоек, оборудования, систем вентиляции и кондиционирования позволяет сымитировать распределение воздушных потоков, температурных полей и давлений. На этапе проектирования CFD-моделирование поможет оптимизировать расстановку стоек, выбрать оптимальную мощность и расположение CRAH, а также спрогнозировать потенциальные проблемы до начала строительства. На этапе эксплуатации модель используется для виртуального тестирования любых изменений в конфигурации зала (добавление нового оборудования, перепланировка) без риска для работающих систем.
В IXсellerate МOS5 проведение CFD-моделирования является обязательной процедурой, что позволяет гарантировать оптимальные условия для размещения оборудования клиентов.
  • Система мониторинга — это «нервная система» ЦОД, которая опирается на распределенную сеть датчиков температуры и влажности. Датчики размещаются на стойках, а также в ключевых точках зала и позволяют не только отслеживать текущие значения, но и строить детальные прогнозы, что необходимо для анализа сезонных изменений и выявления медленно развивающихся проблем.
    Одним из наиболее важных элементов мониторинга является система контроля перепада давления между холодным и горячим коридорами (ключевой индикатор герметичности). Положительный перепад в холодном коридоре относительно горячего предотвращает попадание горячего воздуха в холодную зону.
  • К инструментальным методам контроля относятся:

— Тепловизионное обследование: инфракрасные камеры (тепловизоры) позволяют визуализировать температурные аномалии, которые невозможно обнаружить точечными датчиками. Благодаря этому методу специалист может оперативно получить тепловую карту всей стойки или зала, выявив точные места рециркуляции.

— Аэрозольные тесты: для более наглядного анализа используются дым-генераторы. Запуская безопасный аэрозоль в холодный коридор, можно визуально отследить траекторию воздушных потоков и выявить пути рециркуляции.

Стратегия устранения и предотвращения перегревов

Мероприятия по борьбе с локальными перегревами делятся на оперативные (тактические) и плановые (стратегические). Оперативные меры направлены на быструю ликвидацию уже возникших нарушений. Плановые – на предотвращение проблем и устранение их причин.

Оперативные методы

К наиболее эффективным оперативным методам можно отнести герметизацию инфраструктуры, которая включает:

  • установку заглушек во все неиспользуемые U-места в серверных стойках,
  • монтаж щеточных уплотнений для кабельных вводов, герметизирующих зазоры между кабелями и стойкой,
  • установку боковых панелей и заглушек на торцы рядов стоек,
  • использование уплотнительных материалов для зазоров между стойками и в проемах.

Эти меры не только устраняют перегрев, но и напрямую повышают энергоэффективность (PUE), предотвращая бесполезную трату холода.

В арсенале «скорой помощи» при перегревах − снижение температуры подаваемого холодного воздуха. Однако этот метод ведет к резкому росту энергопотребления и является лишь временным решением.

Плановые мероприятия

Любые неконтролируемые утечки воздуха нарушают баланс системы, а значит герметичность помещения нужно предусмотреть еще на стадии проектирования и строительства. Стены, потолки и полы машинного зала и вентиляционных камер должны быть герметичны.

Предотвратить проблемы до их появления позволяет оптимальное размещение оборудования. Необходимо равномерно распределить мощности по стойкам, соблюдать правила компоновки оборудования с учетом схемы воздушного потока и использовать систему управления воздушным потоком.

Большую роль также играет регулярный аудит и обслуживание: осмотр инфраструктуры, техническое обслуживание оборудования, проверка работы вентиляторов, обновление CFD-моделей в соответствии с актуальной конфигурацией.

Заключение: на пути к идеальному климату в машинном зале

Обеспечение оптимального температурного режима в современном ЦОД — это не просто задача по поддержанию заданной температуры. Это комплексная, непрерывная работа, объединяющая передовое проектирование, интеллектуальные системы мониторинга и оперативное реагирование.

В своей практике IXсellerate применяет системный подход, который затрагивает все этапы жизненного цикла машинного зала: от CFD-моделирования и строгого контроля герметичности на стадии строительства до круглосуточного мониторинга и плановых модернизаций в процессе эксплуатации. Благодаря многоуровневому контролю компания успешно предотвращает возникновение локальных перегревов оборудования.

Внимательное отношение к деталям, глубокое понимание физики воздушных потоков и применение самых современных технологий позволяют IXсellerate гарантировать своим клиентам доступность сервисов на уровне 24х7х365 и создавать по-настоящему надежную и эффективную среду для хранения и обработки критически важных данных.

Алексей Забельников
АВТОР

Алексей Забельников – руководитель группы ОВиК Южного кампуса IXcellerate. Отвечает за эксплуатацию и бесперебойную работу систем кондиционирования, вентиляции и отопления дата-центра MOS5 и других объектов на площадке. Присоединился к команде IXсellerate в 2022 году.

+7-495-8000-911
Back To Top