Пришла задача подобрать сервер на базе Lenovo для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.
Базовые требования:
- Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
- Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
- Возможность использовать NVLINK.
- Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
- Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
- ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.
Будем подбирать.
Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.
Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.
Краткая спецификация NVIDIA A100 80GB PCIe
- Product SKU
- P1001 SKU 230
- NVPN: 699-21001-0230-xxx
- Total board power
- 300 W default
- 300 W maximum
- 150 W minimum
- Thermal solution: Passive
- Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
- GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
- PCI Express interface: PCI Express 4.0 ×16
- Power connectors and headers: One CPU 8-pin auxiliary power connector
NVLINK
Для поддержки NVLINK необходима установка карт попарно рядом.
- Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
- Всего NVLINK Rx и Tx линий поддерживается: 96
- Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
- Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с
В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.
Питание GPU
Расположение разъёма питания:
Сервер Lenovo
На базе Supermicro был подобран сервер Lenovo ThinkSystem ST650 V3. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK. Сервер дополнительно имеет возможность установки в стойку. Сервер ThinkSystem ST650 V3 в башенном корпусе обеспечивает масштабируемую производительность и оснащается двумя процессорами Intel Xeon Scalable 4-го поколения.
https://www.lenovo.com/ru/ru/data-center/servers/towers/ThinkSystem-ST650-V3/p/LEN21TS0022
- Поддержка возможности установки до двух процессоров 4th Gen Intel Xeon Scalable (До 250W TDP)
- До 4 ТБ в 32 модулях DIMM объемом 128 ГБ; TruDDR5 с частотой 4800 МГц
- До 9 разъемов PCIe (5 — Gen 5 и 4 — Gen 4)
- Для GPU заявлено энергопотребление 300 Вт. БП стоят два, Titanium мощностью до 2600 Вт.
- Уровень шума не указан.
Диски
До 32 отсеков для 2,5-дюймовых накопителей (включая 24 отсека NVMe) или 16 отсеков для 3,5-дюймовых накопителей (включая 16 отсеков NVMe). Встроенная поддержка SATA и NVMe с VROC RAID.
Например:
- 1x Твердотельный накопитель Samsung SSD 870 QVO 1Tb MZ-77Q1T0BW
- 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS
Поддержка HBA/RAID:
- Встроенная поддержка SATA и NVMe с VROC RAID
- Адаптеры RAID/HBA PCIe Gen 3, Gen 4 и Gen 5 (при наличии)
- Широкий спектр 8-, 16- и 32-портовых адаптеров RAID
- 8- и 16-портовые адаптеры HBA
- Адаптеры NVMe Retimer для дополнительных 12 портов NVMe
Процессор
Материнская плата имеет возможность установки до двух процессоров 4th Gen Intel Xeon Scalable (До 250W TDP). Среди ксеонов нет таких, у которых были бы все три желаемых параметра: 32 ядра, 3 ГГц базовая частота и Турбо 4.5. Есть ограничение по мощности 250 Вт.
- 6434 8 ядер, 3.7 базовая, 4.1 турбо
- 6448H 32 ядра, 2.4 базовая, 3.2 турбо
- 6434H 8 ядер, 3.7 базовая, 4.1 турбо
Достаточно одного процессора, схемы материнской платы нет, какие именно PCIe слоты будут работать — нужно уточнять у поставщиков.
Память
До 4 ТБ в 32 модулях DIMM объемом 128 ГБ; TruDDR5 с частотой 4800 МГц. В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 4800 MT/s
Сеть
В сервере встроено два порта 2x 10GbE BaseT, однако, они десятигигабитные. Для организации гигабитной сети понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB.
Примеры:
-
Сетевой адаптер BROADCOM BCM5720-2P (2 порта)
Заключение
В итоге получилась такая начальная конфигурация:
- Сервер Lenovo ThinkSystem ST650 V3. В комплектации с корзиной 3.5'.
- Один процессор Intel Xeon 4 поколения 6434 8 ядер, 3.7 базовая, 4.1 турбо (или другой на ваш выбор)
- Память 512 ГБ
- NVIDIA A100 80GB PCIe GPU
- Сетевая карта 1 гигабит PCIe, двухпортовая
- Два SATA HDD с оборотам 7200 RPM объёмом 2 ТБ или более
- Один SATA SSD объёмом 1 ТБ или более (понадобится переходник)
P.S.
Есть ещё одна платформа: Башенный сервер ThinkSystem ST650 V2. Принцип тот же, только процессоры Intel Xeon третьего поколения со всеми вытекающими.
https://www.lenovo.com/ru/ru/data-center/servers/towers/ThinkSystem-ST650-V2/p/len21ts0001