Нет повести печальнее на свете, чем видеть в логе "System Overheating". Перегрелся сервер HPE Proliant DL380 Gen10, и выключился. Перегрелся из-за того, что в машинном зале вышел из строя кондиционер, внешняя температура повысилась.
В логах это выглядит очень просто. Сначала мы получаем сообщение вида:
System Overheating (Temperature Sensor 1, Location Ambient, Temperature 43)
Система мониторинга тоже не спит, на 42 °C приходит уведомление.
Затем процессор начинает троттлиться и уходит в полку.
После этого получаем сообщение вида:
Automatic Operating System Shutdown Initiated Due to Overheat Condition
Сервер выключается.
Что можно сделать?
Нужно устранить причину перегрева, затем включить сервер.
Если причину перегрева устранить нельзя, а температура держится в пограничной зоне, когда сервер вот-вот отключится снова, можно подкрутить параметры сервера в iLO.
Power & Thermal → Fans → Fan Settings. Можно врубить вентиляторы на полную: Max Cooling.
Power & Thermal → Power Settings → Power Regulator Settings. Можно снизить производительность сервера: Static Low Power Mode.
В BIOS можно настроить профиль рабочей нагрузки.
HPE ProLiant Gen10 — меняем профиль рабочей нагрузки
В серверах HPE ProLiant Gen10, ProLiant Gen10 Plus и HPE Synergy существуют предустановленные профили рабочей нагрузки. В соответствии с выбранной рабочей нагрузкой сервер автоматически настроит все связанные с данным профилем параметры производительности в BIOS.
Если вы устанавливали профиль производительности на максимальную производительность, то можно сбросить на значение по умолчанию "General Power Efficient Compute".
После перезагрузки сервер станет меньше греться и эффективность системы охлаждения возрастёт.