skip to Main Content

Неприятности случаются, хотим мы этого или нет. Согласно данным ежегодного опроса Uptime Institute, количество аварий в дата-центрах постепенно уменьшается. В 2022 году о наличии сбоев заявили 60% опрошенных респондентов, тогда как в 2021 году их было 69%, а в 2020 году − 78%.

avarii v tsod preduprezhdyon znachit vooruzhyon4
Источник: Uptime Institute Global Survey of IT and Data Center Managers, 2019-2022

Одновременно снижается и масштаб катаклизмов: крупные аварии в ЦОД происходили лишь у 14% опрошенных. Это вполне закономерно: за последние годы масштаб инноваций и инвестиций в высокую доступность, отказо- и катастрофоустойчивость дата-центров вырос в разы. Операторы центров обработки данных стремятся максимально обезопасить свои объекты: новые ЦОД строятся в соответствии с самыми современными требованиями к безопасности и могу продолжать работу даже в случае технологического апокалипсиса (например, потери сразу обоих энерговводов).

Однако у этой позитивной тенденции есть и обратная сторона: серьезные сбои в работе, хоть и происходят реже, становятся более дорогостоящими. Около 47% дата-центров, которые столкнулись с перебоями в работе, сообщили о затратах в размере от $100 тысяч до $1 млн. Незапланированные простои остаются серьезной угрозой для ЦОД и требуют постоянного контроля.

Причины аварий и способы минимизации рисков

«Первым шагом в защите дата-центра является понимание причин аварий и распространенных сценариев сбоев».

Сергей Вышемирский, технический директор IXcellerate.

Аварии в работе центров обработки данных могут быть вызваны множеством факторов, от вполне рядовых (например, ошибки сотрудников) до крайне «экзотических» (например, повреждение внешних блоков кондиционеров падающими сосульками). Есть факторы, которые легко держать под контролем (например, степень износа оборудования), а есть те, которые невозможно предвидеть. Несколько лет назад в одном из зарубежных дата-центров произошел сбой. Его причиной стала авария на трассе: нерадивый водитель экскаватора случайно зацепил и повредил оптоволоконную магистраль. Нарушение связи привело к тому, что несколько часов многие онлайн сервисы были недоступны для миллионов пользователей

Независимо от частоты, причины и вида, последствия аварий всегда одни и те же: снижение производительности, недовольство клиентов, дополнительные расходы, ущерб репутации. Отличается только масштаб бедствия.

«Исключить вероятность аварий в ЦОД на 100% нельзя, но подстраховаться и минимизировать количество сбоев можно. Первое правило любого сражения – досконально изучить противника, классифицировать угрозы, чтобы разработать эффективную стратегию превентивных действий. Для эффективной защиты дата-центра нужно понимать, какие именно факторы могут вызывать нарушения в его работе».

Сергей Вышемирский, технический директор IXcellerate.

Среди наиболее распространенных причин аварий в ЦОД – неисправность оборудования, кибератаки, сбои в электроснабжении и охлаждении, стихийные бедствия и человеческий фактор.

Сбои и неисправности оборудования

Центры обработки данных — это физические объекты, которые зависят от долговечности других физических объектов. «Начинка» любого ЦОД – это тонны сложной инженерной инфраструктуры, которая работает в режиме «нон стоп» и время от времени выходит из строя. Взрыв литий-ионных батарей, отказ силовых ключей ИБП, отказ вентиляторов, насосов или компрессоров – этот список можно продолжать долго.

Плановые проверки оборудования, замена устаревшей техники на более производительные модели – обязательный пункт антиаварийной программы. Еще один фактор – это своевременная инвентаризация и наличие запчастей. Мы не всегда можем предсказать, когда то или иное устройство выйдет из строя, но можем значительно сократить время ремонта и простоя, если будем иметь под рукой все необходимое. В условиях, когда сроки поставок крайне непредсказуемы, наличие ЗИП жизненно необходимо. Дополнительные расходы на поддержку склада не идут ни в какое сравнение со стоимостью возможных простоев из-за отложенного на неопределенное время ремонта.

Кибератаки

Киберпреступность – бич современного общества. По данным МТС RED, количество кибератак на российские ИТ-компании во втором квартале 2023 года выросло в 4 раза по сравнению с аналогичным периодом 2022-го и достигло 4.000. Четверть российских компаний подвергались сложным кибератакам, а ущерб от нападений составил не менее  ₽20 млн без учёта репутационных потерь (данные «РТК‑Солар»). Дата-центры сталкиваются с этой угрозой все чаще и чаще. Основная цель нападений ― вывести из строя сетевое оборудование, дестабилизировать всю работу ЦОД, а вместе с ним – и его клиентов.

Защита от DDoS-атак является одной из главных составляющих в системе безопасности ЦОД. Комплекс мер включает административные и программные методы. К первым относятся регламенты (в первую очередь − строгие правила разграничения доступа к оборудованию), ко второму − внедрение специального ПО. К техническим средствам защиты относятся системы предотвращения вторжений и выявления подозрительной активности (SIEM-системы) и специализированные программы. Выбор защитных программ должен учитывать особенности функционирования ЦОД, так как традиционные − «тяжелые» решения могут создавать высокую нагрузку и отрицательно влиять на работу и производительность систем.

Нарушения в подаче электроэнергии

Наиболее распространенной причиной аварий в центрах обработки данных является потеря электропитания.

Нарушения могут происходить по многим причинам: от всплесков в энергосети до упавшего на линию электропередач дерева, но чаще всего они вызваны сбоями в работе ИБП.

Чтобы избежать простоев, дата-центры должны иметь резервные источники питания – аккумуляторные батареи и дизель-генераторные установки, которые могут долго поддерживать ЦОД в автономном режиме и обеспечивать бесперебойную работу клиентского оборудования.

Это правило не вызывает сомнений, однако проблемы возникают тогда, когда операторы дата-центров пренебрегают мониторингом или своевременной заменой батарей.

Регулярная проверка ИБП на наличие индикаторов неисправности – простое и надежное средство избежать неприятных ситуаций. Генераторы также требуют регулярного планового технического обслуживания, тестирования и проверок топлива.

avarii v tsod preduprezhdyon znachit vooruzhyon2

Пожар и сбои в охлаждении

Любой дата-центр выделяет много тепла. Невнимательное отношение к системам кондиционирования может привести к нарушению температурного режима и, как следствие, к снижению производительности ЦОД и аварийным ситуациям – от отключения электричества до пожара.

Причины для сбоев в охлаждении не всегда связаны с температурным режимом: плохо очищенная вода может забить форсунки адиабатической системы охлаждения и вывести ее из строя.

Чтобы предотвратить перегрев собственного и клиентского оборудования и продлить срок его службы, нужны:

  • Современные эффективные системы охлаждения.
  • Правильно спроектированная система пожарной безопасности, которая включает пожарную сигнализацию, систему раннего обнаружения задымлений и датчики дыма.
  • Качественные сертифицированные огнеупорные материалы и средства пожаротушения (мобильные пожарные установки или автоматические системы на основе газа или ТРВ).
avarii v tsod preduprezhdyon znachit vooruzhyon3

В дополнение к перечисленным компонентам необходимо следить за тем, чтобы в машинном зале поддерживался температурный режим согласно SLA, регулярно проводить профилактическое обслуживание и проверять все элементы холодоснабжения на износ.

Человеческие ошибки

Человеческий фактор — первопричина большинства поломок и сбоев. Просчеты в выборе оборудования и техническом обслуживании происходят по вине людей. Uptime Institute утверждает, что порядка 65–70% негативных событий вызваны ошибками в повседневной деятельности служб эксплуатации, ненадлежащем выполнении ТО и несоблюдением (или отсутствием) процедур.

Ошибки могут быть случайными и легко исправимыми (сотрудник нечаянно задел и отсоединил кабель питания от оборудования) или стать следствием халатности (техник залил в дизель-генераторную установку не соответствующего сезону топливо). Самый «тяжелый случай» − если ошибка произошла на этапе проектирования (например, прокладка кабеля с низкой производительностью). Исправить такой просчет сложно и дорого.

Для снижения негативного влияния человеческого фактора и сокращения вызванных им ошибок нужен целый комплекс мер, от правильной маркировки оборудования и защиты кнопок аварийного отключения питания до регулярного обучения всего персонала и учебных тревог. Каждый сотрудник дата-центра должен быть «вооружен» профильной инструкцией по эксплуатации и проходить инструктаж, чтобы четко понимать последовательность действий в случае аварийной ситуации.

Эффективным способом снижения риска аварий в центрах обработки данных является автоматизация задач, наиболее подверженных человеческим ошибкам, а том числе – с помощью программным продуктов на основе искусственного интеллекта для мониторинга и управления ИТ-инфраструктурой.

Стихийные бедствия

Стихийные бедствия – отнюдь не редкость, даже в наших спокойных широтах. В последние десятилетия значительно возросло число ураганов, наводнений и циклонов, ставящих под угрозу не только жизни людей, но и безопасность предприятий. Помимо бурных проявлений природной стихии угрозу для безотказности ЦОД представляют и менее разрушительные явления, например, экстремальные морозы (вспомните этот январь!).

В случае, например, затопления центр обработки данных с большой вероятностью ждет отключение электричества, короткие замыкание, выход из строя части инфраструктуры и, как следствие, большие проблемы у клиентов, размещающих в дата-центре свое серверное оборудование: остановка критически важных производственных систем, потеря и восстановление данных, снижение доходов и репутации.

Наличие стратегии на случай чрезвычайной ситуации и плана аварийного восстановления – жесткая необходимость для каждого дата-центра, даже если вероятность торнадо или землетрясений в вашем регионе невелика.

Заключение

Высокая доступность и отказоустойчивость является приоритетом для всех участников цепочки поставок цифровой инфраструктуры. Но несмотря на явный прогресс в решении этой задачи, избежать рисков на 100% пока не удается никому, а аварии обходятся все дороже. Ужесточение соглашений об уровне обслуживания (SLA), которое мы наблюдаем в последнее время, также приводит к увеличению затрат в случае сбоев: дата-центры вынуждены выплачивать своим клиентам крупные компенсации за вынужденные простои.

«Аварии в работе ЦОД неизбежны, однако их частоту, масштабы и стоимость можно свести к минимуму. Ключ к успеху − грамотное управление, инвестиции в современные технологии, профилактические меры и прогноз внештатных ситуаций».

Сергей Вышемирский, технический директор IXcellerate.

Чем выше темпы цифровизации, чем сильнее зависимость экономики и бизнеса от дата-центов, тем выше требования к их надежности. А значит останавливаться на достигнутом пока рано.  Предотвращение простоев — это перманентный процесс, а не разовая задача. Действовать в рамках стратегии реагирования менее эффективно, чем предотвращать проблемы раньше, чем они случаются.

Сергей Вышемирский
АВТОР

Сергей Вышемирский имеет более 30 лет профессионального опыта и технической подготовки. Сергей — сертифицированный эксперт в области Эксплуатации ЦОД по методологии Uptime Institute (Accredited Tier Specialist 1361). Прошел обучение по программе «Энергетическая эффективность» международного центра DCProfessional.

С 2014 года Сергей Вышемирский возглавляет Технический Департамент IXcellerate, который объединяет службы эксплуатации Северного и Южного кампусов ЦОД, строительное подразделение и центр компетенций.

+7-495-8000-911
Back To Top