Перейти к основному содержанию

GigaFail сенсоров на серверах Gigabyte

Gigabyte R182-N20-00

Поймал неприятный баг в мониторинга серверов Gigabyte. В частности у Gigabyte R182-N20.

Сервер Gigabyte R182-N20-00

Значения сенсоров службы IPMI в какой-то момент зависают и выдают последнее значение, которое фактически не совпадает с реальным. На графиках Zabbix прекрасно видно такое возмутительное поведение.

chart

Это даже хуже, чем совсем отсутствие данных. Мониторинг не позволяет выявить проблему и своевременно на неё среагировать. Спас другой шаблон, в котором есть датчики температуры RAID контроллера и который работает не через IPMI, удалось среагировать на резкое повышение температуры.

Zabbix шаблон для мониторинга RAID контроллеров LSI в ESXi 7

Пока не вижу других альтернатив, кроме как периодически перезагружать службу BMC серверов.

Теги

 

Похожие материалы

Установка сетевой карты LR-Link LRES3002PF-OCP в OCP 2.0 слот

LRES3002PF-OCP — это 10-гигабитная SFP+ двухпортовая волоконно-оптическая сетевая карта OCP Type-1. Сегодня посмотрим как её устанавливать в слот OCP 2.0. Работы будем производить на сервере Сервер Gigabyte R282-N81.

Материнская плата Gigabyte X399 Aorus Xtreme

Материнская плата Gigabyte X399 Aorus Xtreme была специально подготовлена к выходу новых процессоров AMD Threadripper. С ней при нагрузке и разгоне процессора не возникнет никаких проблем. Материнская плата оснащена по полной, имеет солидный комплект поставки.