В результате псевдонаучного эксперимента развалился кластер vCenter 7 HA. Печаль печальная.
Симптомы шедевральные. Активная и пассивная ноды vCenter HA ушли в бесконечную перезагрузку. А мы всего лишь разорвали сетевую связность между всеми тремя нодами. Раньше, конечно, подобного мы не делали, но такое поведение крайне неожиданное. По идее в случае отсутствия связи с двумя нодами третья не должна делать ничего: была пассивной, оставайся пассивной. Возможно, что-то с репликацией БД, не знаю. Нода загружается, стартует службы. Иногда даже админка applmgmt загружается. Можно войти в консоль, запустить что-нибудь, пара минут работы, затем хост просто уходит в перезагрузку.
Я пробовал оставлять только пассивную ноду, потом только активную. Было предположение, что ноды не могут выяснить кто главнее. Затем я нагуглил товарищей по несчастью, у которых произошла та же ситуация с vCenter 6.5 HA:
Самый простой напрашивающийся вариант: сломать кластер высокой доступности.
Сначала выясняем какая из нод была активной на момент сбоя. Заходим в консоль под юзером root, проваливаемся в shell и смотрим IP адрес.
shell
ip addr
У кого адрес есть, тот и был последним. Оставляем этого счастливчика, остальные ноды тушим. Делаем снапшот, на всякий случай.
Дожидаемся очередного цикла загрузки и рушим vCenter HA кластер:
vcha-destroy -f
Кластер удаляется. Перезагружаем ноду. Потом ещё раз перезагружаем. Пока vCenter нормально не стартанёт.
Затем начинаем собирать кластер заново, но это уже совсем другая история, к тому же близится утро.