Поймал неприятный баг в мониторинга серверов Gigabyte. В частности у Gigabyte R182-N20.
Значения сенсоров службы IPMI в какой-то момент зависают и выдают последнее значение, которое фактически не совпадает с реальным. На графиках Zabbix прекрасно видно такое возмутительное поведение.
Это даже хуже, чем совсем отсутствие данных. Мониторинг не позволяет выявить проблему и своевременно на неё среагировать. Спас другой шаблон, в котором есть датчики температуры RAID контроллера и который работает не через IPMI, удалось среагировать на резкое повышение температуры.
Zabbix шаблон для мониторинга RAID контроллеров LSI в ESXi 7
Пока не вижу других альтернатив, кроме как периодически перезагружать службу BMC серверов.