Перейти к основному содержанию

Сервер для четырёх GPU NVIDIA A100 на базе Supermicro

NVIDIA A100

Пришла задача подобрать сервер на базе Supermicro для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.

Базовые требования:

  • Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
  • Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
  • Возможность использовать NVLINK.
  • Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
  • Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
  • ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.

Будем подбирать.

Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.

Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.

Краткая спецификация NVIDIA A100 80GB PCIe

  • Product SKU
    • P1001 SKU 230
    • NVPN: 699-21001-0230-xxx
  • Total board power
    • 300 W default
    • 300 W maximum
    • 150 W minimum
  • Thermal solution: Passive
  • Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
  • GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
  • PCI Express interface: PCI Express 4.0 ×16
  • Power connectors and headers: One CPU 8-pin auxiliary power connector

NVLINK

Для поддержки NVLINK необходима установка карт попарно рядом.

nvlink

  • Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
  • Всего NVLINK Rx и Tx линий поддерживается: 96
  • Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
  • Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с

В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.

Питание GPU

Расположение разъёма питания:

gpu

Сервер Supermicro

На базе Supermicro был подобран сервер GPU SuperServer SYS-741GE-TNRT. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK. Сервер дополнительно имеет возможность установки в стойку.

https://www.supermicro.com/en/products/system/gpu/tower/sys-741ge-tnrt

В сервере имеется материнская плата Super X13DEG-QT

https://www.supermicro.com/en/products/motherboard/X13DEG-QT

supermicro

  • Поддержка возможности установки до двух процессоров 4th Gen Intel Xeon Scalable (До 350W TDP)
  • Слоты DIMM максимальным объёмом до 4TB: 16x 256 GB DRAM Memory Type: 4800MHz ECC DDR5
  • 4 слота PCIe 5.0 x16 (double-width) (можно поставить 4 полноразмерных двухслотовых GPU)
  • 3 слота PCIe 5.0 x16 (single-width)
  • 2 слота M.2 NVMe для загрузки (M-Key 2280 и 22110)
  • Для GPU заявлено энергопотребление 300 Вт. БП стоят два, на 2 кВт.
  • Уровень шума не указан.

supermicro

Диски

Поддержка до 8 дисков NVMe, SAS, SATA 3.5'. Есть поддержка программного массива на чипе Intel C741. В нашем случае достаточно 2 дисков SATA HDD на 2 ТБ и 1 диск SATA SSD на 1 TB с переходником или M.2 NVMe на 1 ТБ.

Например:

  • 1x Samsung Твердотельный накопитель Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW
  • 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS

Процессор

Материнская плата имеет возможность установки до двух процессоров 4th Gen Intel Xeon Scalable (До 350W TDP). Среди ксеонов нет таких, у которых были бы все три желаемых параметра: 32 ядра, 3 ГГц базовая частота и Турбо 4.5. Вот список:

https://www.supermicro.com/en/support/resources/cpu-4th-gen-intel-xeon-scalable

Из интересных и более-менее подходящих:

  • 8462Y+ 32 ядра, 2.8 базовая, 3.6 турбо
  • 6444Y 16 ядер, 3.6 базовая, 4.0 турбо (хороший вариант)
  • 6458Q 32 ядра, 3.1 базовая, 4.0 турбо, но тут написано про жидкостное охлаждение, нужно уточнить у поставщиков
  • 9462 32 ядра, 2.7 базовая, 3.1 турбо

Для первоначального старта с одной картой GPU достаточно одного процессора, при этом будут работать:

  • PCIe слоты: 2, 4, 10 (достаточно для 2 GPU и ещё одного устройства типа сетевой карты)
  • NVMe разъёмы P1_NVME0/1, P1_NVME2/3
  • M.2 слоты

Память

Поддерживается: 16 DIMM slots до 4TB 3DS ECC RDIMM, DDR5-4800MHz.

  • Memory Type 4800/4400/4000 MT/s ECC DDR5 RDIMM (3DS) 256GB 4800MT/s
  • DIMM Sizes 16GB, 32GB, 64GB, 128GB, 256GB
  • RDIMM: 16GB, 32GB, 64GB, 128GB, 256GB

В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 4800 MT/s.

Сеть

В сервере встроено два порта 2x 10GbE BaseT. Для организации гигабитной сети понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB.

Примеры:

  • Сетевой адаптер BROADCOM BCM5720-2P (2 порта)

Заключение

В итоге получилась такая начальная конфигурация:

  • Сервер GPU SuperServer SYS-741GE-TNRT.
  • Один процессор Intel Xeon 4 поколения 6444Y 16 ядер, 3.6 базовая, 4.0 турбо.
  • Память 512 ГБ.
  • NVIDIA A100 80GB PCIe GPU.
  • Сетевая карта 1 гигабит PCIe, двухпортовая.
  • Два HDD с оборотам 7200 RPM объёмом 2 ТБ или более.
  • M.2 NVMe диск 1 ТБ (Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW), можно аналог.

Цены

 

Похожие материалы

Плата управления сервером Supermicro CSE-PTJBOD-CB3 (firmware)

Моё короткое мнение о серверах Supermicro: очень неудобные сервера для администрирования. Самая большая проблема — невозможность мониторить состояние дисков. 

Supermicro AOC-STGN-i2S — обзор

Удивительно, но SFP+ адаптер Supermicro AOC-STGN-i2S мне попался первый раз, несмотря на то, что я уже давно работаю с серверами этой марки. Не могу сказать насколько качественно работает железка, я, в основном, пользовался адаптерами от HP и Mellanox. Сейчас запустил сервер с этим адаптером, вроде работает.