
Развитие искусственного интеллекта и машинного обучения, повсеместная цифровизация услуг и лавинообразный рост объемов данных формируют особые требования к вычислительным мощностям и, как следствие, инфраструктуре центров обработки данных. Бесперебойность работы ЦОД становится критически важным фактором для бизнеса любого масштаба.
Отказоустойчивость дата-центра обеспечивается множеством инженерных систем. Одна из ключевых – это система охлаждения. Перегрев серверного оборудования даже на несколько градусов может привести к ошибкам, отключениям, нарушению целостности данных и финансовым потерям, связанным с нарушением SLA.
Таким образом, наличие надежной системы кондиционирования выходит на первый план при проектировании и эксплуатации современных ЦОД.
Как организовано охлаждение оборудования в дата-центрах?
Эволюция систем охлаждения: от CRAC к CRAH и жидкостному охлаждению
«Рабочими лошадками» первых поколений ЦОД были системы CRAC (Computer Room Air Conditioners), которые используют механическое охлаждение с помощью фреона и которые являлись, по сути, автономными кондиционерами. Эти установки пользуются большой популярностью благодаря своей относительной простоте и самостоятельности, но обладают существенным недостатком − низкой энергоэффективностью по сравнению с более современными системами.
Следующим шагом стали CRAH-установки (Computer Room Air Handlers), которые не имеют собственного холодильного контура и используют теплообменники, через которые пропускается охлажденная вода или жидкость.
Ключевое преимущество CRAH — высокая энергоэффективность. Чиллеры, особенно со свободным охлаждением (free cooling), могут значительно снизить энергопотребление системы в холодное время года, используя низкую температуру наружного воздуха.
Устройства CRAH расположены в отдельной вентиляционной камере, что облегчает их обслуживание и не требуют нахождения сервисного инженера в машзале на время проведения работ.

С появлением высокоплотных серверов (с нагрузкой 40 кВт на стойку и выше) традиционного воздушного охлаждения становится недостаточно, и на замену воздушному охлаждению приходит жидкостное или гибридное водовоздушное охлаждение, которые позволяют в разы увеличить плотность размещения оборудования и снизить энергозатраты на его охлаждение.
Вместе с системами охлаждения меняются и стандарты. Рекомендации ассоциации ASHRAE TC 9.9 по температурным режимам в машинных залах за последние годы претерпели значительные изменения. Если ранее для класса оборудования А1 нормой считалась температура 18-22°C, то сегодня рекомендуемый диапазон расширен до 18-27°C, и даже до 32°C для некоторых классов оборудования. Этот сдвиг обусловлен повышением термостойкости серверных компонентов и стремлением к снижению энергозатрат (каждый «лишний» градус охлаждения приводит к перерасходу электроэнергии).

Результаты экспериментов лягут в основу colocation-сервисов для AI/ML-инфраструктуры в новых дата-центрах компании.
Машзал оснащен драйкулерами с адиабатическим предохлаждением и холодными стенами на фреоновом контуре. Эти решения обеспечивают надежный теплоотвод даже при экстремальной концентрации вычислительных мощностей.
Локальные зоны перегрева: невидимая угроза
Расширение температурных диапазонов и стремление к повышению энергоэффективности выявило парадоксальную проблему: даже при наличии достаточной холодильной мощности и соблюдении рекомендаций ASHRAE, в машинных залах возникают локальные зоны критического перегрева. Эти «горячие точки» могут образовываться в отдельных стойках или даже на уровне серверов, при этом общие датчики температуры зала показывают нормальные значения.
Чтобы избежать подобных ситуаций и обеспечить надежность дата-центра, необходимо понимать природу и механизмы возникновения локальных перегревов. Их основная причина — это нарушения в разделении воздушных потоков, из-за которых могут возникнуть два негативных явления:
- Горячий воздух на выходе со стороны серверов (горячий коридор) захватывается не полностью и попадает обратно на вход (в холодный коридор). В результате оборудование потребляет уже нагретый воздух, и эффективность его охлаждения снижается.
- Холодный воздух из холодного коридора, не проходя через серверное оборудование, сразу возвращается в систему охлаждения, что приводит к бесполезной трате холодильной мощности.


«Локальные перегревы — результат комплексного взаимодействия нескольких факторов, каждый из которых требует внимания при проектировании и эксплуатации ЦОД».
Алексей Забельников, Руководитель группы эксплуатации систем ОВиК Южного кампуса IXcellerate
Первопричиной большинства проблем является нарушение герметичности. Даже небольшая щель площадью 10–15 см² может пропускать до 30–50 м³/час горячего воздуха, что критично для высокоплотного оборудования. К основным конструкционным недостаткам относятся:
- негерметичность горячих/холодных коридоров: зазоры между стойками, отсутствие или неполное закрытие заглушек в неиспользуемых юнитах, отсутствие щеточных уплотнений для кабельных вводов,
- неправильная изоляция зон: недостаточное закрытие торцов рядов стоек, отсутствие дверей в горячих коридорах, щели в фальшполе или подвесном потолке,
- кабельная инфраструктура: избыточное количество кабелей, проходящих через стойку, создает препятствия для воздушного потока и дополнительные пути рециркуляции.
Также негативную роль играет неправильное размещение оборудования, что вызывает неравномерное распределение тепловых нагрузок:
- концентрация высокомощного оборудования: размещение серверов с высоким тепловыделением в одной части стойки создает локальную «горячую зону», с которой система охлаждения не справляется,
- неправильная ориентация оборудования: установка серверов с разнонаправленными схемами воздушного потока (front-to-back и back-to-front) в одну стойку приводит к циркуляции горячего воздуха внутри стойки,
- блокировка воздушного потока: размещение крупногабаритного оборудования (storage-системы, сетевое оборудование) перед серверами с высоким тепловыделением.
Проблемы могут быть связаны с некорректной работой самих систем охлаждения − неправильной балансировкой воздушных потоков или недостаточным статическим давлением, создаваемым вентиляторами CRAH. На них также влияют настройки вентиляторов в стойках.
Отдельной и часто недооцененной причиной возникновения локальных перегревов является конфигурация системы охлаждения внутри серверного оборудования — алгоритмы работы его собственных вентиляторов. Неправильная настройка или работа системы охлаждения на уровне сервера не только угрожает самому этому устройству, но и выступает как активный дестабилизирующий фактор для всей системы терморегуляции стойки и машинного зала в целом.
Современные методы диагностики и мониторинга
Борьба с локальными перегревами начинается с их своевременного и точного обнаружения. Современный ЦОД использует многоуровневую систему мониторинга. Ее основными элементами являются моделирование, мониторинг в реальном времени и инструментальные методы контроля.

- Создание точной 3D-модели машинного зала с учетом всех стоек, оборудования, систем вентиляции и кондиционирования позволяет сымитировать распределение воздушных потоков, температурных полей и давлений. На этапе проектирования CFD-моделирование поможет оптимизировать расстановку стоек, выбрать оптимальную мощность и расположение CRAH, а также спрогнозировать потенциальные проблемы до начала строительства. На этапе эксплуатации модель используется для виртуального тестирования любых изменений в конфигурации зала (добавление нового оборудования, перепланировка) без риска для работающих систем.
- Система мониторинга — это «нервная система» ЦОД, которая опирается на распределенную сеть датчиков температуры и влажности. Датчики размещаются на стойках, а также в ключевых точках зала и позволяют не только отслеживать текущие значения, но и строить детальные прогнозы, что необходимо для анализа сезонных изменений и выявления медленно развивающихся проблем.
Одним из наиболее важных элементов мониторинга является система контроля перепада давления между холодным и горячим коридорами (ключевой индикатор герметичности). Положительный перепад в холодном коридоре относительно горячего предотвращает попадание горячего воздуха в холодную зону.
- К инструментальным методам контроля относятся:
— Тепловизионное обследование: инфракрасные камеры (тепловизоры) позволяют визуализировать температурные аномалии, которые невозможно обнаружить точечными датчиками. Благодаря этому методу специалист может оперативно получить тепловую карту всей стойки или зала, выявив точные места рециркуляции.
— Аэрозольные тесты: для более наглядного анализа используются дым-генераторы. Запуская безопасный аэрозоль в холодный коридор, можно визуально отследить траекторию воздушных потоков и выявить пути рециркуляции.
Стратегия устранения и предотвращения перегревов
Мероприятия по борьбе с локальными перегревами делятся на оперативные (тактические) и плановые (стратегические). Оперативные меры направлены на быструю ликвидацию уже возникших нарушений. Плановые – на предотвращение проблем и устранение их причин.
Оперативные методы
К наиболее эффективным оперативным методам можно отнести герметизацию инфраструктуры, которая включает:
- установку заглушек во все неиспользуемые U-места в серверных стойках,
- монтаж щеточных уплотнений для кабельных вводов, герметизирующих зазоры между кабелями и стойкой,
- установку боковых панелей и заглушек на торцы рядов стоек,
- использование уплотнительных материалов для зазоров между стойками и в проемах.
Эти меры не только устраняют перегрев, но и напрямую повышают энергоэффективность (PUE), предотвращая бесполезную трату холода.
В арсенале «скорой помощи» при перегревах − снижение температуры подаваемого холодного воздуха. Однако этот метод ведет к резкому росту энергопотребления и является лишь временным решением.
Плановые мероприятия
Любые неконтролируемые утечки воздуха нарушают баланс системы, а значит герметичность помещения нужно предусмотреть еще на стадии проектирования и строительства. Стены, потолки и полы машинного зала и вентиляционных камер должны быть герметичны.
Предотвратить проблемы до их появления позволяет оптимальное размещение оборудования. Необходимо равномерно распределить мощности по стойкам, соблюдать правила компоновки оборудования с учетом схемы воздушного потока и использовать систему управления воздушным потоком.
Большую роль также играет регулярный аудит и обслуживание: осмотр инфраструктуры, техническое обслуживание оборудования, проверка работы вентиляторов, обновление CFD-моделей в соответствии с актуальной конфигурацией.
Заключение: на пути к идеальному климату в машинном зале
Обеспечение оптимального температурного режима в современном ЦОД — это не просто задача по поддержанию заданной температуры. Это комплексная, непрерывная работа, объединяющая передовое проектирование, интеллектуальные системы мониторинга и оперативное реагирование.В своей практике IXсellerate применяет системный подход, который затрагивает все этапы жизненного цикла машинного зала: от CFD-моделирования и строгого контроля герметичности на стадии строительства до круглосуточного мониторинга и плановых модернизаций в процессе эксплуатации. Благодаря многоуровневому контролю компания успешно предотвращает возникновение локальных перегревов оборудования.
Внимательное отношение к деталям, глубокое понимание физики воздушных потоков и применение самых современных технологий позволяют IXсellerate гарантировать своим клиентам доступность сервисов на уровне 24х7х365 и создавать по-настоящему надежную и эффективную среду для хранения и обработки критически важных данных.