На одном из серверов с установленными картами NVIDIA GeForce RTX 4090 периодически одна из карт начинала показывать ошибку ERR в выводе nvidia-smi вместо процента вращения вентилятора.
Грешить на драйвера как-то не получается, ведь в сервере стоят четыре одинаковые видеокарты, а отваливается только одна, при чём одна и та же. Можно предположить три варианта:
- Неисправна видеокарта
- Плохой контакт гибкого PCIe шлейфа подключения или неисправность шлейфа
- Неисправен PCIe слот
Сервер новый, видеокарты на гарантии. Первым делом решили локализовать проблему. Просто поменяли местами две последние видеокарты. Если проблема в самой видеокарте, то в следующий раз проблема будет наблюдаться не на GPU 3, а на GPU 2. Одновременно с данной операцией почистили PCIe слоты и заново аккуратно подключили гибкий PCIe шлейф.
И проблема ушла. Значит, где-то PCIe шлейф не контачил. Радует, что видеокарту не пришлось менять.
Ссылки
Четвёртый прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090