Поймал ошибку на сервере HPE ProLiant DL580 Gen10.
The iLO health monitoring status of the device / adapter located in Slot 4 is not responsive.
The iLO health monitoring status of the device / adapter located in Slot 6 is not responsive.
Погуглил проблему. HPE грешат на MCTP.
https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00102190en_us
Management Component Transport Protocol (MCTP) — это протокол для поддержки коммуникации между различными аппаратными компонентами для их мониторинга и контроля.
MCTP— это стандартная технология, которую iLO использует для непосредственного взаимодействия с опциями, установленными на сервере. Обнаружение MCTP включено по умолчанию. Для устранения неполадок вы можете отключить обнаружение MCTP для сервера или отдельного адаптера. Например, если адаптер не работает, вы можете временно отключить обнаружение MCTP, чтобы продолжить работу сервера, пока вы исследуете проблему. Когда вы отключаете обнаружение MCTP, единственный способ включить его снова - выполнить сброс к заводским настройкам MCTP, который включает обнаружение MCTP на сервере и во всех слотах адаптера. Отключение обнаружения MCTP для сервера автоматически отключает его для всех слотов адаптера. Hewlett Packard Enterprise рекомендует не отключать обнаружение MCTP, если только это действие не рекомендовано службой поддержки.
iLO 5 — большой обзор
HPE предлагают обновить iLO до версии не менее iLO 5 v2.30. Или отключить обнаружение MCTP. Проблема в том, что у меня была версия 2.63, но ошибки не прекращались. Обновление до версии 2.72 тоже ничего не дало. Начинаем думать.
У меня в 4 и 6 слотах стоят NVMe диски Samsung. Можно, конечно, забить на проблему, можно настроить MCTP только для конкретных устройств. Я пока просто всё отключу. Следует помнить, что отключение MCTP ведёт за собой отключение кучи датчиков IPMI. А ещё MCTP имеет загадочное свойство включаться после обновления прошивки iLO.
Переходим в System Information → Device Inventory. Видим надпись "MCTP Discovery Enabled". Тыкаем в кнопку Discovery.
Здесь можно устанавливать MCTP для каждого устройства. Отключаю всё и нажимаю Apply. Кнопка MCTP Factory Reset включить MCTP для всех устройств.
HPE рекомендует после этой операции перезагрузить iLO и сервер.