Перейти к основному содержанию

GigaFail сенсоров на серверах Gigabyte

Gigabyte R182-N20-00

Поймал неприятный баг в мониторинга серверов Gigabyte. В частности у Gigabyte R182-N20.

Сервер Gigabyte R182-N20-00

Значения сенсоров службы IPMI в какой-то момент зависают и выдают последнее значение, которое фактически не совпадает с реальным. На графиках Zabbix прекрасно видно такое возмутительное поведение.

chart

Это даже хуже, чем совсем отсутствие данных. Мониторинг не позволяет выявить проблему и своевременно на неё среагировать. Спас другой шаблон, в котором есть датчики температуры RAID контроллера и который работает не через IPMI, удалось среагировать на резкое повышение температуры.

Zabbix шаблон для мониторинга RAID контроллеров LSI в ESXi 7

Пока не вижу других альтернатив, кроме как периодически перезагружать службу BMC серверов.

Теги

 

Похожие материалы

Пятый прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090

Всем привет, продолжаем собирать сервер для GPU. Сегодня будет пятый прототип сервера на базе корпуса для майнинга ExeGate Pro 6-470.

Установка сетевой карты LR-Link LRES3002PF-OCP в OCP 2.0 слот

LRES3002PF-OCP — это 10-гигабитная SFP+ двухпортовая волоконно-оптическая сетевая карта OCP Type-1. Сегодня посмотрим как её устанавливать в слот OCP 2.0. Работы будем производить на сервере Сервер Gigabyte R282-N81.