Перейти к основному содержанию

GigaFail сенсоров на серверах Gigabyte

Gigabyte R182-N20-00

Поймал неприятный баг в мониторинга серверов Gigabyte. В частности у Gigabyte R182-N20.

Сервер Gigabyte R182-N20-00

Значения сенсоров службы IPMI в какой-то момент зависают и выдают последнее значение, которое фактически не совпадает с реальным. На графиках Zabbix прекрасно видно такое возмутительное поведение.

chart

Это даже хуже, чем совсем отсутствие данных. Мониторинг не позволяет выявить проблему и своевременно на неё среагировать. Спас другой шаблон, в котором есть датчики температуры RAID контроллера и который работает не через IPMI, удалось среагировать на резкое повышение температуры.

Zabbix шаблон для мониторинга RAID контроллеров LSI в ESXi 7

Пока не вижу других альтернатив, кроме как периодически перезагружать службу BMC серверов.

Теги

 

Похожие материалы