Погода была прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.
Пришло сообщение:
EVENT (26-Jan-2022 00:55): CPU Throttling Triggered, CPU may be operating at reduced performance. ACTION: Check the thermals of the system. Check fans, processor heat sink and air baffles installation.
Троттлинг — это специальный механизм защиты процессора от перегрева. Чем больше температура, тем больше тактов пропускает процессор. Температура процессора при этом снижается, производительность тоже.
Без такой защиты процессор может сгореть, если система охлаждение выйдет из строя. Лучше снижение производительности, чем дохлый сервер.
Я бросился проверять температуру сервера. К моему удивлению температура оказалась в порядке, питание тоже. Нагрузка на CPU по мониторингу не превышала 30%, всплесков не было. Странно.
Через сутки ситуация повторилась, а потом снова.
Пришлось обратиться поддержку. Там посоветовали сделать две вещи:
- Изменить план рабочей нагрузки на более производительный.
- Повысить обороты вентиляторов.
План рабочей нагрузки
HPE ProLiant Gen10 — меняем профиль рабочей нагрузки
Перезагружаю сервер.
Текущий профиль: Workload Profile: General Power Efficient Compute. У меня сервер выполняет роль гипервизора, для этот профиль не самый лучший. Установлю Virtualization - Max Performance. Нажимаю F9.
System Configuration.
BIOS/Platform Configuration (RBSU).
Изменяем Workload Profile на Virtualization - Max Performance.
OK.
F12: Save and Exit.
Yes - Save Changes.
Reboot. Сервер перезагружается.
План рабочей нагрузки Virtualization - Max Performance меняет некоторые параметры BIOS:
- System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Power Regulator. Static High Performance Mode—Processors.
- System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Minimum Processor Idle Power Core C-State. No C-states.
- System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Minimum Processor Idle Power Package C-State. No Package State.
- System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Energy/Performance Bias. Maximum Performance.
- System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Collaborative Power Control. Disabled.
Обороты вентиляторов
Вентиляторы настраиваются в iLO в разделе Power & Thermal → Fans.
Значение по умолчанию: Optimal Cooling (16%). Для внесения изменений нужно загрузить сервер и нажать на карандаш.
Возможные варианты:
- Optimal Cooling
- Enhanced CPU Cooling
- Increased Cooling
- Maximum Cooling
Я устанавливаю Maximum Cooling.
Потребуется перезапуск iLO.
Теперь вентиляторы загружены на 100%.
Заключение
Проблема с троттлингом процессора решена. Больше ошибок не было.
Через несколько дней я вернул настройки вентиляторов на прежние: Optimal Cooling. Вероятно, проблема решилась только сменой плана рабочей нагрузки. Однако, если температура в стойке высокая, то можно и повысить обороты.
Следите за охлаждением! Здоровья вашим серверам.