Пришла задача подобрать сервер на базе Gigabyte для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.
Базовые требования:
- Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
- Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
- Возможность использовать NVLINK.
- Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
- Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
- ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.
Будем подбирать.
Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.
Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.
Краткая спецификация NVIDIA A100 80GB PCIe
- Product SKU
- P1001 SKU 230
- NVPN: 699-21001-0230-xxx
- Total board power
- 300 W default
- 300 W maximum
- 150 W minimum
- Thermal solution: Passive
- Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
- GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
- PCI Express interface: PCI Express 4.0 ×16
- Power connectors and headers: One CPU 8-pin auxiliary power connector
NVLINK
Для поддержки NVLINK необходима установка карт попарно рядом.
- Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
- Всего NVLINK Rx и Tx линий поддерживается: 96
- Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
- Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с
В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.
Питание GPU
Расположение разъёма питания:
Сервер Gigabyte
На базе Lenovo был подобран сервер W771-Z00. Это напольный вариант однопроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK, при желании. Сервер дополнительно имеет возможность установки в стойку.
https://www.gigabyte.com/Enterprise/Tower-Server/W771-Z00-rev-100
- Поддержка возможности установки процессора AMD Ryzen Threadripper PRO 5000WX или 3000WX.
- До 8 модулей DIMM DDR4 UDIMM/RDIMM/3DS RDIMM/LRDIMM
- До 7 разъемов PCIe Gen 4. 4 GPU перекрывают все слоты.
- Два слота M.2 (M-Key; NGFF-2242/2280; PCIe Gen4 x4 or SATA III 6Gb/s).
- Опционально два внешних вентилятора для GPU, лучше поставить.
Диски
Поддержка до 8 дисков SATA 3.5'. Заявлена поддержка программного массива, но не написано на каком чипе.. В вашем случае достаточно 2 дисков SATA HDD на 2 ТБ и 1 диск SATA SSD на 1 TB с переходником или M.2 NVMe на 1 ТБ.
Например:
- 1x Samsung Твердотельный накопитель Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW
- 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS
Процессор
Здесь у нас используется процессор AMD. Можно поставить только один. Есть ограничение по мощности 280 Вт.
- Ryzen Threadripper Pro 5995WX 64 ядра, 2.7 базовая, 4.5 турбо
- Ryzen Threadripper Pro 5975WX 32 ядра, 3.6 базовая, 4.5 турбо (удовлетворяет запросу)
- Ryzen Threadripper Pro 3975WX 32 ядра, 3.5 базовая, 4.2 турбо
- Смотрите и другие варианты AMD Ryzen Threadripper PRO 5000WX или 3000WX.
Память
8 x DIMM слотов. DDR4 только 8-канальная архитектура. Поддержка 3200/2933/2666/2400/2133 MHz; ECC & non-ECC; buffered & unbuffered; UDIMM, RDIMM, 3DS R-DIMM, LRDIMM. Всего до 2 ТБ (256 ГБ single LRDIMM capacity).
В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 3200 MT/s.
Сеть
В сервере встроено два порта 2 x 10GbE BaseT, однако, они могут не работать в локальной сети, потому как десятигигабитные. Понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB. Цены разные, от 400 руб и выше.
Примеры:
-
Сетевой адаптер BROADCOM BCM5720-2P (2 порта)
В данном случае лучше посоветоваться с тем, кто занимается вашей локальной сетью.
При установке 4 GPU можно установить только USB сетевой адаптер, потому как все PCIe слоты будут перекрыты видеокартами.
Окружающая среда
Для GPU заявлено энергопотребление 300 Вт, но с периферией, скорее 500 Вт. БП стоят два, на 2.6 кВт. Уровень шума не указан.
Заключение
В итоге получилась такая начальная конфигурация:
- Сервер W771-Z00. С внешними вентиляторами для GPU.
- Один процессор AMD Ryzen Threadripper Pro 5975WX 32 ядра, 3.6 базовая, 4.5 турбо (или другой на ваш выбор)
- Память 512 ГБ
- NVIDIA A100 80GB PCIe GPU
- Сетевая карта 1 гигабит PCIe, двухпортовая (Или USB, если не останется PCIe слотов)
- Два SATA HDD с оборотам 7200 RPM объёмом 2 ТБ или более
- Один SATA SSD объёмом 1 ТБ или более (понадобится переходник)