Перейти к основному содержанию

Баг на сервере Gigabyte

Gigabyte R182-N20-00

Словил странный и нехороший баг на сервере Gigabyte, который выполняет роль гипервизора ESXi. Даже не просто баг, а цепочку проблем, которая привела к деградации сервисов.

В какой-то момент утилизация CPU гипервизора подскочила в полку. Нормальная ситуация, какая-то виртуальная машина решила поработать и сожрала все ресурсы CPU.

CPU работали на 100%, после чего резко утилизация CPU упала почти до нуля. При этом виртуальные машины стали еле шевелиться. Сервисы встали.

esxi

Всё работает нормально, ошибок никаких нет, мониторинг молчит, а виртуалки еле шевелятся. Ничего не понятно.

Перезагружать гипервизор страшно, вдруг не взлетит. Экстренно выключил не сильно нужные виртуальные машины, а сильно нужные отправил мигрироваться на соседние гипервизоры. Через час более-менее привёл в порядок сервисы. Начал расследование.

Пришёл к выводу, что сочетание факторов привело к такому печальному результату. Виноват баг, о котором я ранее уже писал:

GigaFail сенсоров на серверах Gigabyte

Значения сенсоров службы IPMI в какой-то момент зависли и стали выдавать последнее значение, которое фактически не совпадает с реальным. Я думал, это повлияет только на мониторинг, но нет.

CPU сервера стали работать на 100%, температура стала расти, при этом графики мониторинга не изменились. CPU стали троттлиться, виртуалки встали. Троттлинг не прекратился даже после возвращение температуры в норму, вероятно потому, что сам сервер не зафиксировал изменение температуры (это только предположение). Помогла перезагрузка сервера.

Естественно, BMC прошил до последней версии после этого...

Прошивка BMC на сервере Gigabyte R182-N20-00 через MegaRAC SP-X

Теги

Цены

 

Похожие материалы