Перейти к основному содержанию

IPMI — Get SDR 0082 command failed: BMC initialization in progress

Мастерская

Некоторые серверы стали отваливаться от мониторинга Zabbix со странными ошибками. Обычный плавающий баг, то работаю, то не работаю. Начал анализировать ситуацию, заметил несколько моментов:

  • Ошибки начались после установки новых PCIe устройств на нескольких серверах.
  • Ошибки при мониторинге серверов через IPMI.

У меня HPE ProLiant сервера разных моделей. И сегодня-таки я вычислил источник проблем. Начал просматривать списки сенсоров с помощью утилиты ipmitool.

Получение информации о сенсорах IPMI с помощью ipmitool

И заметил интересную ошибку:

IPMI — Get SDR 0082 command failed: BMC initialization in progress

hpe

При опросе некоторых сенсоров сервер не отдавал значение, а сыпал ошибкой. После пары запросов значение сенсора отдавалось. При повторном запросе ошибка происходила на другом сенсоре. Получается, что Zabbix иногда не мог получить значение случайных сенсоров и сервер отваливался из мониторинга.

Что делать, проблема-то на сервере? Читать логи. Полез в логи серверов и заметил, что на проблемных серверах в логах встречается ещё одна ошибка:

The iLO health monitoring status of the device / adapter located in Slot N is not responsive

iLO 5 не отдаёт заббиксу значение сенсоров по той простой причине, что само ожидает ответ от PCIe устройства по протоколу MCTP и висит. Отрубаем, нафиг, MCTP, ждём две минуты и радуемся. Процесс описан в статье:

The iLO health monitoring status of the device / adapter located in Slot N is not responsive

Да, нужно ещё перезагрузить iLO и сам сервер.

После отключения MCTP и перезагрузки iLO и сервера, проблема ушла. Не единого разрыва! Вот только часть сенсоров пропала, но уж переживу. Можно ещё поиграться с MCTP и отключить только проблемные PCIe устройства, но это уже не сегодня.

Теги

 

Похожие материалы

Zabbix шаблон для мониторинга ленточной библиотеки HP MSL 4048 (G3 Series)

Делюсь полезным шаблоном для мониторинга сервера ленточной библиотеки HP MSL 4048. Мониторим по SNMP. Шаблон делал сам. Шаблон также подходит для других библиотек HP MSL G3 Series.

Zabbix, ProLiant и тормоза IPMI

Я раньше сталкивался с проблемой мониторинга серверов HP ProLiant девятого поколения по SNMP, ссылку добавлю ниже. В тот раз я вышел из тупика переходом на мониторинг северов по IPMI. Со временем девятое поколение серверов стало плавно меняться на десятое, при этом мониторинг так и остался на IPMI, я просто для каждой новой модели сервера делал новый шаблон. И вот натыкаюсь на странный баг с IPMI.

Теги

Проблема с SNMP на серверах HPE Proliant Gen9

Столкнулся с неизлечимой проблемой на серверах HP Proliant. Через случайный промежуток времени (от нескольких минут до нескольких дней) служба SNMP в ILO сервера зависает. Это происходит на серверах, которые активно мониторятся через SNMP. 

Теги