![Gigabyte R182-N20-00](/sites/internet-lab.ru/files/styles/shirokiy/public/2023-08/R182-N20-00_0.png?itok=6qpkAJ_0)
Поймал неприятный баг в мониторинга серверов Gigabyte. В частности у Gigabyte R182-N20.
Значения сенсоров службы IPMI в какой-то момент зависают и выдают последнее значение, которое фактически не совпадает с реальным. На графиках Zabbix прекрасно видно такое возмутительное поведение.
Это даже хуже, чем совсем отсутствие данных. Мониторинг не позволяет выявить проблему и своевременно на неё среагировать. Спас другой шаблон, в котором есть датчики температуры RAID контроллера и который работает не через IPMI, удалось среагировать на резкое повышение температуры.
Zabbix шаблон для мониторинга RAID контроллеров LSI в ESXi 7
Пока не вижу других альтернатив, кроме как периодически перезагружать службу BMC серверов.