Перейти к основному содержанию

vCenter 7 HA — бесконечная перезагрузка

VMware

В результате псевдонаучного эксперимента развалился кластер vCenter 7 HA. Печаль печальная.

Симптомы шедевральные. Активная и пассивная ноды vCenter HA ушли в бесконечную перезагрузку. А мы всего лишь разорвали сетевую связность между всеми тремя нодами. Раньше, конечно, подобного мы не делали, но такое поведение крайне неожиданное. По идее в случае отсутствия связи с двумя нодами третья не должна делать ничего: была пассивной, оставайся пассивной. Возможно, что-то с репликацией БД, не знаю. Нода загружается, стартует службы. Иногда даже админка applmgmt загружается. Можно войти в консоль, запустить что-нибудь, пара минут работы, затем хост просто уходит в перезагрузку.

Я пробовал оставлять только пассивную ноду, потом только активную. Было предположение, что ноды не могут выяснить кто главнее. Затем я нагуглил товарищей по несчастью, у которых произошла та же ситуация с vCenter 6.5 HA:

https://communities.vmware.com/t5/VMware-vCenter-Discussions/vCenter-High-Availability-continuous-reboot/td-p/1761912

Самый простой напрашивающийся вариант: сломать кластер высокой доступности.

Сначала выясняем какая из нод была активной на момент сбоя. Заходим в консоль под юзером root, проваливаемся в shell и смотрим IP адрес.

shell
ip addr

У кого адрес есть, тот и был последним. Оставляем этого счастливчика, остальные ноды тушим. Делаем снапшот, на всякий случай.

Дожидаемся очередного цикла загрузки и рушим vCenter HA кластер:

vcha-destroy -f

Кластер удаляется. Перезагружаем ноду. Потом ещё раз перезагружаем. Пока vCenter нормально не стартанёт.

Затем начинаем собирать кластер заново, но это уже совсем другая история, к тому же близится утро.

 

Похожие материалы

Advanced vCenter 7 HA в разных подсетях

Продолжаю цикл статей по настройке vCenter 7 High Availability (VCHA). Будем разбираться с архитектурой высокой доступности. Сегодня настроим Advanced vCenter 7 HA в ручном режиме в разных подсетях.