Перейти к основному содержанию

Перегрев сервера HPE Proliant DL380 Gen10

HPE Proliant DL380 Gen10 LFF

Нет повести печальнее на свете, чем видеть в логе "System Overheating". Перегрелся сервер HPE Proliant DL380 Gen10, и выключился. Перегрелся из-за того, что в машинном зале вышел из строя кондиционер, внешняя температура повысилась.

В логах это выглядит очень просто. Сначала мы получаем сообщение вида:

System Overheating (Temperature Sensor 1, Location Ambient, Temperature 43)

hpe

Система мониторинга тоже не спит, на 42 °C приходит уведомление.

zabbix

Затем процессор начинает троттлиться и уходит в полку.

hpe

После этого получаем сообщение вида:

Automatic Operating System Shutdown Initiated Due to Overheat Condition

hpe

Сервер выключается.

Что можно сделать?

Нужно устранить причину перегрева, затем включить сервер.

Если причину перегрева устранить нельзя, а температура держится в пограничной зоне, когда сервер вот-вот отключится снова, можно подкрутить параметры сервера в iLO.

Power & Thermal → Fans → Fan Settings. Можно врубить вентиляторы на полную: Max Cooling.

hpe

Power & Thermal → Power Settings → Power Regulator Settings. Можно снизить производительность сервера: Static Low Power Mode.

hpe

В BIOS можно настроить профиль рабочей нагрузки.

HPE ProLiant Gen10 — меняем профиль рабочей нагрузки

В серверах HPE ProLiant Gen10, ProLiant Gen10 Plus и HPE Synergy существуют предустановленные профили рабочей нагрузки. В соответствии с выбранной рабочей нагрузкой сервер автоматически настроит все связанные с данным профилем параметры производительности в BIOS.

Если вы устанавливали профиль производительности на максимальную производительность, то можно сбросить на значение по умолчанию "General Power Efficient Compute".

hpe

После перезагрузки сервер станет меньше греться и эффективность системы охлаждения возрастёт.

Теги

 

Похожие материалы

Замена диска в HP MSA 2040

В СХД HP MSA 2040 начал выходить из строя диск. Он пока не отметился как failed, но практически каждый день на нём стали происходить ошибки вида: .1.3.6.1.4.1.11.2.51.0.3001 Normal "General event" 10.10.10.12 - 3878 3 Event type: 58, An event was reported by a disk drive. (disk: channel: 0, ID: 1, SN: XXXXXXXX, enclosure: 1, slot: 2) (Key,Code,Qual,UEC:0xB,0x11,0x3,0x0000) (CDB:Rd 27212000 0800)(Info:0x272125AA)(CmdSpc:0x0, FRU:0x42, SnsKeySpc:0x0)(Aborted Command, multiple read errors)

HPE Proliant DL360 Gen10 — описание и фото

HPE Proliant DL360 Gen10 — безопасный высокопроизводительный компактный сервер в корпусе 1U отличается высокой вычислительной мощностью благодаря использованию в Gen10 поколении новых процессоров семейства Intel Xeon Scalable и высокочастотной памяти DDR4-2666. Идеально подходит для виртуализации, работы с базами данных. Автоматизация важных задач управления жизненным циклом сервера с помощью решений HPE OneView и HPE iLO 5 упрощает процессы развертывания, обновления, мониторинга и обслуживания. 

Zabbix шаблон для мониторинга сервера HP Proliant DL580 Gen9

Делюсь полезным шаблоном для мониторинга сервера  HP Proliant DL580 Gen9. Мониторим по IPMI. Шаблон делал сам. Версия 2. В шаблоне 7 приложений, 97 элементов данных, 37 триггеров и 3 графика.

Теги