Нашли себе проблем на ровном месте. Переставили сервер в другую стойку, после чего в сервере перестала определяться одна из GPU карт. История со счастливым концом. Happy End обязательно будет.
Четвёртый прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090
При физическом переносе сервера вероятнее всего механическая поломка. Однако, проблема с одним из компонентов тоже не исключена. В любом случае диагностики нам не избежать. При переносе сервера всегда должен быть план на тот случай, если сервер не включится или что-то выйдет из строя.

Есть несколько вариантов диагностики сервера. Можно снять его и отвезти в сервисный сервер. Однако, по возможности следует провести первичную диагностику на месте.
Если в ЦОДе есть клиентская комната, можно снять сервер, отнести его туда и провести диагностику. Там тихо и удобно.
Если сервер оборудован рельсами полного выдвижения, можно этим воспользоваться. Однако, если сервер расположен в верхней части стойки, это проблематично, понадобится лестница.
Все остальные случаи — неудобны. Но нам повезло, стойка почти пустая, сервер полностью доступен.

Для начала следует разобраться с питанием, возможно, проблема в БП, или синхронизаторе, если он используется. В нашем случае питание в порядке.

Дальнейший процесс нудный и скучный. Проблема может быть:
- В одной из четырёх карт GPU
- В одном из четырёх шлейфов PCIe
- В одном из четырёх слотов PCIe
- В одном из двух процессоров
- В планке памяти
Три GPU работают, значит, проблема возможна в одном уже известном наборе PCIe слот - PCIe шлейф - GPU карта.
По очереди извлекая карты можно вычислить нерабочий GPU.
Linux — определить GPU видеокарту NVIDIA в сервере

Меняя карты, слоты и шлейфы местами можно вычислить злодея в наборе PCIe слот - PCIe шлейф - GPU карта.

Проблема оказалась в шлейфе.

Внимательный осмотр выявил несколько заметных повреждений.

При установке GPU карты с гибким PCIe шлейфом можно случайно передавить его, что у нас и произошло.
Однако, цена ремонта минимальна, нам повезло.

Достаём из кармана новый шлейф, устанавливаем вместо нерабочего. Включаем сервер, карта светится, это хороший знак.
Проблема решена. Все четыре GPU карты в работе. Далее будем проводить нагрузочное тестирование перед выпуском сервера в прод.

