Перейти к основному содержанию

Сервер для четырёх GPU NVIDIA A100 на базе Lenovo

NVIDIA A100

Пришла задача подобрать сервер на базе Lenovo для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.

Базовые требования:

  • Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
  • Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
  • Возможность использовать NVLINK.
  • Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
  • Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
  • ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.

Будем подбирать.

Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.

Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.

Краткая спецификация NVIDIA A100 80GB PCIe

  • Product SKU
    • P1001 SKU 230
    • NVPN: 699-21001-0230-xxx
  • Total board power
    • 300 W default
    • 300 W maximum
    • 150 W minimum
  • Thermal solution: Passive
  • Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
  • GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
  • PCI Express interface: PCI Express 4.0 ×16
  • Power connectors and headers: One CPU 8-pin auxiliary power connector

NVLINK

Для поддержки NVLINK необходима установка карт попарно рядом.

nvlink

  • Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
  • Всего NVLINK Rx и Tx линий поддерживается: 96
  • Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
  • Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с

В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.

Питание GPU

Расположение разъёма питания:

gpu

Сервер Lenovo

На базе Supermicro был подобран сервер Lenovo ThinkSystem ST650 V3. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK. Сервер дополнительно имеет возможность установки в стойку. Сервер ThinkSystem ST650 V3 в башенном корпусе обеспечивает масштабируемую производительность и оснащается двумя процессорами Intel Xeon Scalable 4-го поколения.

https://www.lenovo.com/ru/ru/data-center/servers/towers/ThinkSystem-ST650-V3/p/LEN21TS0022

lenovo

  • Поддержка возможности установки до двух процессоров 4th Gen Intel Xeon Scalable (До 250W TDP)
  • До 4 ТБ в 32 модулях DIMM объемом 128 ГБ; TruDDR5 с частотой 4800 МГц
  • До 9 разъемов PCIe (5 — Gen 5 и 4 — Gen 4)
  • Для GPU заявлено энергопотребление 300 Вт. БП стоят два, Titanium мощностью до 2600 Вт.
  • Уровень шума не указан.

Диски

До 32 отсеков для 2,5-дюймовых накопителей (включая 24 отсека NVMe) или 16 отсеков для 3,5-дюймовых накопителей (включая 16 отсеков NVMe). Встроенная поддержка SATA и NVMe с VROC RAID.

Например:

  • 1x Твердотельный накопитель Samsung SSD 870 QVO 1Tb MZ-77Q1T0BW
  • 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS

Поддержка HBA/RAID:

  • Встроенная поддержка SATA и NVMe с VROC RAID
  • Адаптеры RAID/HBA PCIe Gen 3, Gen 4 и Gen 5 (при наличии)
  • Широкий спектр 8-, 16- и 32-портовых адаптеров RAID
  • 8- и 16-портовые адаптеры HBA
  • Адаптеры NVMe Retimer для дополнительных 12 портов NVMe

Процессор

Материнская плата имеет возможность установки до двух процессоров 4th Gen Intel Xeon Scalable (До 250W TDP). Среди ксеонов нет таких, у которых были бы все три желаемых параметра: 32 ядра, 3 ГГц базовая частота и Турбо 4.5. Есть ограничение по мощности 250 Вт.

  • 6434 8 ядер, 3.7 базовая, 4.1 турбо
  • 6448H 32 ядра, 2.4 базовая, 3.2 турбо
  • 6434H 8 ядер, 3.7 базовая, 4.1 турбо

Достаточно одного процессора, схемы материнской платы нет, какие именно PCIe слоты будут работать — нужно уточнять у поставщиков.

Память

До 4 ТБ в 32 модулях DIMM объемом 128 ГБ; TruDDR5 с частотой 4800 МГц. В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 4800 MT/s

Сеть

В сервере встроено два порта 2x 10GbE BaseT, однако, они десятигигабитные. Для организации гигабитной сети понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB.

Примеры:

  • Сетевой адаптер BROADCOM BCM5720-2P (2 порта)

Заключение

В итоге получилась такая начальная конфигурация:

  • Сервер Lenovo ThinkSystem ST650 V3. В комплектации с корзиной 3.5'.
  • Один процессор Intel Xeon 4 поколения 6434 8 ядер, 3.7 базовая, 4.1 турбо (или другой на ваш выбор)
  • Память 512 ГБ
  • NVIDIA A100 80GB PCIe GPU
  • Сетевая карта 1 гигабит PCIe, двухпортовая
  • Два SATA HDD с оборотам 7200 RPM объёмом 2 ТБ или более
  • Один SATA SSD объёмом 1 ТБ или более (понадобится переходник)

P.S.

Есть ещё одна платформа: Башенный сервер ThinkSystem ST650 V2. Принцип тот же, только процессоры Intel Xeon третьего поколения со всеми вытекающими.

https://www.lenovo.com/ru/ru/data-center/servers/towers/ThinkSystem-ST650-V2/p/len21ts0001

Цены

 

Похожие материалы