Перейти к основному содержанию

Сервер для четырёх GPU GeForce RTX 4090 — поиск проблемы

PALIT GeForce RTX 4090

Нашли себе проблем на ровном месте. Переставили сервер в другую стойку, после чего в сервере перестала определяться одна из GPU карт. История со счастливым концом. Happy End обязательно будет.

Четвёртый прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090

При физическом переносе сервера вероятнее всего механическая поломка. Однако, проблема с одним из компонентов тоже не исключена. В любом случае диагностики нам не избежать. При переносе сервера всегда должен быть план на тот случай, если сервер не включится или что-то выйдет из строя.

gpu

Есть несколько вариантов диагностики сервера. Можно снять его и отвезти в сервисный сервер. Однако, по возможности следует провести первичную диагностику на месте.

Если в ЦОДе есть клиентская комната, можно снять сервер, отнести его туда и провести диагностику. Там тихо и удобно.

Если сервер оборудован рельсами полного выдвижения, можно этим воспользоваться. Однако, если сервер расположен в верхней части стойки, это проблематично, понадобится лестница.

Все остальные случаи — неудобны. Но нам повезло, стойка почти пустая, сервер полностью доступен.

gpu

Для начала следует разобраться с питанием, возможно, проблема в БП, или синхронизаторе, если он используется. В нашем случае питание в порядке.

gpu

Дальнейший процесс нудный и скучный. Проблема может быть:

  • В одной из четырёх карт GPU
  • В одном из четырёх шлейфов PCIe
  • В одном из четырёх слотов PCIe
  • В одном из двух процессоров
  • В планке памяти

Три GPU работают, значит, проблема возможна в одном уже известном наборе PCIe слот - PCIe шлейф - GPU карта.

По очереди извлекая карты можно вычислить нерабочий GPU.

Linux — определить GPU видеокарту NVIDIA в сервере

gpu

Меняя карты, слоты и шлейфы местами можно вычислить злодея в наборе PCIe слот - PCIe шлейф - GPU карта.

gpu

Проблема оказалась в шлейфе.

gpu

Внимательный осмотр выявил несколько заметных повреждений.

gpu

При установке GPU карты с гибким PCIe шлейфом можно случайно передавить его, что у нас и произошло.

Однако, цена ремонта минимальна, нам повезло.

gpu

Достаём из кармана новый шлейф, устанавливаем вместо нерабочего. Включаем сервер, карта светится, это хороший знак.

gpu

Проблема решена. Все четыре GPU карты в работе. Далее будем проводить нагрузочное тестирование перед выпуском сервера в прод. 

 

Похожие материалы

Пятый прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090

Всем привет, продолжаем собирать сервер для GPU. Сегодня будет пятый прототип сервера на базе корпуса для майнинга ExeGate Pro 6-470.