Неожиданно обнаружилось то, что по умолчанию профиль работы вентиляторов на сервере ASUS ESC4000-E10 настроен на экономию электроэнергии. Так называемый, Silent Mode. Я понимаю когда такой режим работы настроен дома в ПК, но на сервере с GPU картами это выглядит очень странно.
ASUS ESC4000 G3 – это двухпроцессорный графический сервер на базе процессоров Intel Xeon Scalable 3-го поколения. Сервер поддерживает 4 слота PCIe 4.0 x16 – для двухслотовых видеокарт или 8 слотов PCIe 4.0 x8 – для однослотовых видеокарт.
Заметили перегрев, собственно, по перегреву одной из видеокарт. Посмотрели показатели, температура процессоров в 70 °C тоже показалась повышенной.
Сервер управляется через ASMB10-iKVM.
BMC позволяет настроить управление вентиляторами через Fan Control.

Доступны преднастроенные режимы:
- Generic mode
- Full speed mode
Generic mode имеет очень странную карту работы вентиляторов. Home → Settings → Fan Control → Customized. Здесь отображается несколько групп вентиляторов, для каждой из них можно настроить их обороты в зависимости от температуры процессора или GPU.

В этом режиме все вентиляторы работают на 30%, пока процессоры не начнут перегреваться. Это нам не подходит. Меняем настройки.

Пусть будет так. Наблюдаем.

Температура процессоров упала до 62-65 °C.

Память сильно не грелась, но температура тоже упала.

Самое главное, режим вращения вентиляторов изменился, они стали работать быстрее. Скорость вращения увеличилась с 7000 до 9000 оборотов в минуту. Значил, видеокарты станут охлаждаться лучше, что нам и нужно.
