Перейти к основному содержанию

Сервер для четырёх GPU GeForce RTX 4090 — поиск проблемы

PALIT GeForce RTX 4090

Нашли себе проблем на ровном месте. Переставили сервер в другую стойку, после чего в сервере перестала определяться одна из GPU карт. История со счастливым концом. Happy End обязательно будет.

Четвёртый прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090

При физическом переносе сервера вероятнее всего механическая поломка. Однако, проблема с одним из компонентов тоже не исключена. В любом случае диагностики нам не избежать. При переносе сервера всегда должен быть план на тот случай, если сервер не включится или что-то выйдет из строя.

gpu

Есть несколько вариантов диагностики сервера. Можно снять его и отвезти в сервисный сервер. Однако, по возможности следует провести первичную диагностику на месте.

Если в ЦОДе есть клиентская комната, можно снять сервер, отнести его туда и провести диагностику. Там тихо и удобно.

Если сервер оборудован рельсами полного выдвижения, можно этим воспользоваться. Однако, если сервер расположен в верхней части стойки, это проблематично, понадобится лестница.

Все остальные случаи — неудобны. Но нам повезло, стойка почти пустая, сервер полностью доступен.

gpu

Для начала следует разобраться с питанием, возможно, проблема в БП, или синхронизаторе, если он используется. В нашем случае питание в порядке.

gpu

Дальнейший процесс нудный и скучный. Проблема может быть:

  • В одной из четырёх карт GPU
  • В одном из четырёх шлейфов PCIe
  • В одном из четырёх слотов PCIe
  • В одном из двух процессоров
  • В планке памяти

Три GPU работают, значит, проблема возможна в одном уже известном наборе PCIe слот - PCIe шлейф - GPU карта.

По очереди извлекая карты можно вычислить нерабочий GPU.

Linux — определить GPU видеокарту NVIDIA в сервере

gpu

Меняя карты, слоты и шлейфы местами можно вычислить злодея в наборе PCIe слот - PCIe шлейф - GPU карта.

gpu

Проблема оказалась в шлейфе.

gpu

Внимательный осмотр выявил несколько заметных повреждений.

gpu

При установке GPU карты с гибким PCIe шлейфом можно случайно передавить его, что у нас и произошло.

Однако, цена ремонта минимальна, нам повезло.

gpu

Достаём из кармана новый шлейф, устанавливаем вместо нерабочего. Включаем сервер, карта светится, это хороший знак.

gpu

Проблема решена. Все четыре GPU карты в работе. Далее будем проводить нагрузочное тестирование перед выпуском сервера в прод. 

 

Похожие материалы

Шестой прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090

И шестой прототип оказался неудачный. Этот вариант сервера планировалось немного оптимизировать по блокам питания, с питанием всё получилось, но проблема всплыла в неожиданном месте. Будем иметь в виду.

Комп для разработчика с GPU GeForce RTX 4090

Коллеги собрали рабочий комп для разработчика с солидным GPU на борту. Ранее мы уже лепили этот комп из того что было, пришла пора обновить систему и дать возможность разработчику творить. Добро, желательно.