
Отказ одного вентилятора в HPE ProLiant DL360 Gen10 заставляет сервер кричать от перегрузки.
HPE Proliant DL360 Gen10 — описание и фото
В идеально отлаженном мире центров обработки данных царит монотонный гул — символ бесперебойной работы. Иногда этот ровный звуковой фон нарушается оглушительным рёвом, который сигнализирует о проблеме. Частой причиной такой звуковой атаки становится отказ всего одного небольшого компонента — вентилятора системы охлаждения. В частности, в серверах HPE ProLiant DL360 Gen10 это поведение является не багом, а тщательно продуманной и жизненно важной функцией.
Механизм выживания: как система охлаждения отвечает на отказ
Сервер HPE ProLiant DL360 Gen10 — это высокопроизводительная платформа, где в плотном корпусе соседствуют мощные процессоры, память и накопители. Выделяемое ими тепло должно эффективно отводиться, и за это отвечает массив из нескольких вентиляторов, работающих в связке. Вентиляторы, кстати, поддерживают функцию горячей замены.
Когда один из вентиляторов выходит из строя и останавливается, происходит следующее:
- Мгновенное обнаружение: встроенный контроллер управления системой охлаждения iLO немедленно обнаруживает потерю сигнала с одного из кулеров или падение его оборотов до нуля.
- Активация режима аварийного охлаждения: чтобы компенсировать потерю воздушного потока и предотвратить перегрев критически важных компонентов (процессоров, модулей памяти, чипов), контроллер отдает команду всем остальным исправным вентиляторам перейти на максимальную скорость вращения (100%).
- Компенсация потока: цель этого действия — протолкнуть достаточное количество холодного воздуха через те каналы, которые остались без активного охлаждения, используя создаваемое избыточное давление. Это инженерное решение гарантирует, что даже при отказе одного элемента температура внутри сервера останется в безопасных пределах.
Почему именно максимальные обороты? Это не недостаток, а преимущество
Такое поведение может показаться избыточным: почему бы не увеличить скорость всего на 20-30%? Это продиктовано фундаментальными принципами работы воздушного охлаждения:
- Гарантия сохранности данных: перегрев приводит к троттлингу (принудительному снижению производительности) процессоров, а в критических случаях — к аварийному отключению сервера. Это означает простой и потенциальную потерю данных. Режим максимального охлаждения предотвращает этот сценарий любой ценой.
- Физика воздушного потока: в плотно упакованном корпусе сервера вентиляторы работают как слаженная команда, создавая сбалансированный ламинарный поток. Отказ одного из них создает "мёртвую зону" с турбулентностью и обратным потоком горячего воздуха. Чтобы продавить воздух через эту зону, требуется значительное увеличение давления, что и достигается работой остальных вентиляторов на полную мощность.
- Предсказуемость и надежность: HPE использует агрессивную, но предсказуемую стратегию. Администратор всегда точно знает: оглушительный шум = проблема с охлаждением.
Что делать администратору? Алгоритм действий
Оглушительный шум — это однозначный сигнал к действию, а не повод для паники.
Диагностика
Необходимо зайти в интерфейс управления iLO. Во вкладке "Power & Thermal" будет четко указан неисправный вентилятор (со статусом "Failed" или "Removed") и текущие показатели температуры компонентов. Часто на самом сервере загорается индикатор неисправности.

Горячая замена
HPE ProLiant DL360 Gen10 поддерживает горячую замену вентиляторов. Это означает, что вам не нужно выключать сервер. Но это не точно. Для замены вентилятора нужно выдвинуть сервер из стойки, снять крышку, и, собственно, заменить вентилятор. Если ваш сервер не оборудован рельсами полного выдвижения и специальным рукавом для выдвижения кабеля, то вам всё-таки придётся выключить сервер.
Важно: Прежде чем извлекать неисправный вентилятор, подготовьте новый. Извлечение исправного кулера приведет к тому, что система потеряет еще один источник охлаждения, что может спровоцировать срабатывание защиты от перегрева.
Быстро и аккуратно извлеките старый вентилятор из его отсека и сразу же вставьте новый.
Подтверждение устранения неисправности
Буквально через несколько секунд после установки нового вентилятора контроллер iLO распознает его, оценит адекватность охлаждения и плавно снизит обороты остальных вентиляторов до нормального рабочего уровня. В серверной вновь воцаряется привычный ровный гул.
Мониторинг
Выход из строя одного вентилятора в сервере HPE Proliant DL360 Gen10 не сказывается на производительность системы. Ваш сервер работает и дальше, как будто ничего не произошло.
Для оперативного обнаружения проблемы необходимо настроить мониторинг, который позволит системным администраторам выявить проблему и своевременно отреагировать.
Глядя на графики работы вентиляторов и их статусы можно предварительно вычислить проблему даже без посещения iLO.

Zabbix шаблон для мониторинга сервера HPE Proliant DL360 Gen10

Заключение
"Истерика" вентиляторов HPE ProLiant DL360 Gen10 при отказе одного из них — это не сбой системы, а её отлаженная защитная реакция. Это наглядная демонстрация принципа отказоустойчивости в действии: система жертвует акустическим комфортом и энергоэффективностью, чтобы обеспечить главное — бесперебойную работу и сохранность оборудования и данных. Понимание этого механизма позволяет администраторам быстро и эффективно реагировать, минимизируя любые возможные риски.