
Словил странный и нехороший баг на сервере Gigabyte, который выполняет роль гипервизора ESXi. Даже не просто баг, а цепочку проблем, которая привела к деградации сервисов.
В какой-то момент утилизация CPU гипервизора подскочила в полку. Нормальная ситуация, какая-то виртуальная машина решила поработать и сожрала все ресурсы CPU.
CPU работали на 100%, после чего резко утилизация CPU упала почти до нуля. При этом виртуальные машины стали еле шевелиться. Сервисы встали.

Всё работает нормально, ошибок никаких нет, мониторинг молчит, а виртуалки еле шевелятся. Ничего не понятно.
Перезагружать гипервизор страшно, вдруг не взлетит. Экстренно выключил не сильно нужные виртуальные машины, а сильно нужные отправил мигрироваться на соседние гипервизоры. Через час более-менее привёл в порядок сервисы. Начал расследование.
Пришёл к выводу, что сочетание факторов привело к такому печальному результату. Виноват баг, о котором я ранее уже писал:
GigaFail сенсоров на серверах Gigabyte
Значения сенсоров службы IPMI в какой-то момент зависли и стали выдавать последнее значение, которое фактически не совпадает с реальным. Я думал, это повлияет только на мониторинг, но нет.
CPU сервера стали работать на 100%, температура стала расти, при этом графики мониторинга не изменились. CPU стали троттлиться, виртуалки встали. Троттлинг не прекратился даже после возвращение температуры в норму, вероятно потому, что сам сервер не зафиксировал изменение температуры (это только предположение). Помогла перезагрузка сервера.
Естественно, BMC прошил до последней версии после этого...
Прошивка BMC на сервере Gigabyte R182-N20-00 через MegaRAC SP-X