Пришла задача подобрать сервер на базе Supermicro для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.
Базовые требования:
- Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
- Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
- Возможность использовать NVLINK.
- Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
- Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
- ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.
Будем подбирать.
Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.
Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.
Краткая спецификация NVIDIA A100 80GB PCIe
- Product SKU
- P1001 SKU 230
- NVPN: 699-21001-0230-xxx
- Total board power
- 300 W default
- 300 W maximum
- 150 W minimum
- Thermal solution: Passive
- Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
- GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
- PCI Express interface: PCI Express 4.0 ×16
- Power connectors and headers: One CPU 8-pin auxiliary power connector
NVLINK
Для поддержки NVLINK необходима установка карт попарно рядом.
- Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
- Всего NVLINK Rx и Tx линий поддерживается: 96
- Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
- Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с
В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.
Питание GPU
Расположение разъёма питания:
Сервер Supermicro
На базе Supermicro был подобран сервер GPU SuperServer SYS-741GE-TNRT. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK. Сервер дополнительно имеет возможность установки в стойку.
https://www.supermicro.com/en/products/system/gpu/tower/sys-741ge-tnrt
В сервере имеется материнская плата Super X13DEG-QT
https://www.supermicro.com/en/products/motherboard/X13DEG-QT
- Поддержка возможности установки до двух процессоров 4th Gen Intel Xeon Scalable (До 350W TDP)
- Слоты DIMM максимальным объёмом до 4TB: 16x 256 GB DRAM Memory Type: 4800MHz ECC DDR5
- 4 слота PCIe 5.0 x16 (double-width) (можно поставить 4 полноразмерных двухслотовых GPU)
- 3 слота PCIe 5.0 x16 (single-width)
- 2 слота M.2 NVMe для загрузки (M-Key 2280 и 22110)
- Для GPU заявлено энергопотребление 300 Вт. БП стоят два, на 2 кВт.
- Уровень шума не указан.
Диски
Поддержка до 8 дисков NVMe, SAS, SATA 3.5'. Есть поддержка программного массива на чипе Intel C741. В нашем случае достаточно 2 дисков SATA HDD на 2 ТБ и 1 диск SATA SSD на 1 TB с переходником или M.2 NVMe на 1 ТБ.
Например:
- 1x Samsung Твердотельный накопитель Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW
- 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS
Процессор
Материнская плата имеет возможность установки до двух процессоров 4th Gen Intel Xeon Scalable (До 350W TDP). Среди ксеонов нет таких, у которых были бы все три желаемых параметра: 32 ядра, 3 ГГц базовая частота и Турбо 4.5. Вот список:
https://www.supermicro.com/en/support/resources/cpu-4th-gen-intel-xeon-scalable
Из интересных и более-менее подходящих:
- 8462Y+ 32 ядра, 2.8 базовая, 3.6 турбо
- 6444Y 16 ядер, 3.6 базовая, 4.0 турбо (хороший вариант)
- 6458Q 32 ядра, 3.1 базовая, 4.0 турбо, но тут написано про жидкостное охлаждение, нужно уточнить у поставщиков
- 9462 32 ядра, 2.7 базовая, 3.1 турбо
Для первоначального старта с одной картой GPU достаточно одного процессора, при этом будут работать:
- PCIe слоты: 2, 4, 10 (достаточно для 2 GPU и ещё одного устройства типа сетевой карты)
- NVMe разъёмы P1_NVME0/1, P1_NVME2/3
- M.2 слоты
Память
Поддерживается: 16 DIMM slots до 4TB 3DS ECC RDIMM, DDR5-4800MHz.
- Memory Type 4800/4400/4000 MT/s ECC DDR5 RDIMM (3DS) 256GB 4800MT/s
- DIMM Sizes 16GB, 32GB, 64GB, 128GB, 256GB
- RDIMM: 16GB, 32GB, 64GB, 128GB, 256GB
В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 4800 MT/s.
Сеть
В сервере встроено два порта 2x 10GbE BaseT. Для организации гигабитной сети понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB.
Примеры:
-
Сетевой адаптер BROADCOM BCM5720-2P (2 порта)
Заключение
В итоге получилась такая начальная конфигурация:
- Сервер GPU SuperServer SYS-741GE-TNRT.
- Один процессор Intel Xeon 4 поколения 6444Y 16 ядер, 3.6 базовая, 4.0 турбо.
- Память 512 ГБ.
- NVIDIA A100 80GB PCIe GPU.
- Сетевая карта 1 гигабит PCIe, двухпортовая.
- Два HDD с оборотам 7200 RPM объёмом 2 ТБ или более.
- M.2 NVMe диск 1 ТБ (Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW), можно аналог.