Перейти к основному содержанию

Сервер для четырёх GPU NVIDIA A100 на базе Gigabyte

NVIDIA A100

Пришла задача подобрать сервер на базе Gigabyte для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.

Базовые требования:

  • Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
  • Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
  • Возможность использовать NVLINK.
  • Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
  • Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
  • ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.

Будем подбирать.

Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.

Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.

Краткая спецификация NVIDIA A100 80GB PCIe

  • Product SKU
    • P1001 SKU 230
    • NVPN: 699-21001-0230-xxx
  • Total board power
    • 300 W default
    • 300 W maximum
    • 150 W minimum
  • Thermal solution: Passive
  • Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
  • GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
  • PCI Express interface: PCI Express 4.0 ×16
  • Power connectors and headers: One CPU 8-pin auxiliary power connector

NVLINK

Для поддержки NVLINK необходима установка карт попарно рядом.

nvlink

  • Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
  • Всего NVLINK Rx и Tx линий поддерживается: 96
  • Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
  • Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с

В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.

Питание GPU

Расположение разъёма питания:

gpu

Сервер Gigabyte

На базе Lenovo был подобран сервер W771-Z00. Это напольный вариант однопроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK, при желании. Сервер дополнительно имеет возможность установки в стойку.

https://www.gigabyte.com/Enterprise/Tower-Server/W771-Z00-rev-100

gigabyte

  • Поддержка возможности установки процессора AMD Ryzen Threadripper PRO 5000WX или 3000WX.
  • До 8 модулей DIMM DDR4 UDIMM/RDIMM/3DS RDIMM/LRDIMM
  • До 7 разъемов PCIe Gen 4. 4 GPU перекрывают все слоты.
  • Два слота M.2 (M-Key; NGFF-2242/2280; PCIe Gen4 x4 or SATA III 6Gb/s).
  • Опционально два внешних вентилятора для GPU, лучше поставить.

gigabyte

Диски

Поддержка до 8 дисков SATA 3.5'. Заявлена поддержка программного массива, но не написано на каком чипе.. В вашем случае достаточно 2 дисков SATA HDD на 2 ТБ и 1 диск SATA SSD на 1 TB с переходником или M.2 NVMe на 1 ТБ.

Например:

  • 1x Samsung Твердотельный накопитель Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW
  • 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS

Процессор

Здесь у нас используется процессор AMD. Можно поставить только один. Есть ограничение по мощности 280 Вт.

  • Ryzen Threadripper Pro 5995WX 64 ядра, 2.7 базовая, 4.5 турбо
  • Ryzen Threadripper Pro 5975WX 32 ядра, 3.6 базовая, 4.5 турбо (удовлетворяет запросу)
  • Ryzen Threadripper Pro 3975WX 32 ядра, 3.5 базовая, 4.2 турбо
  • Смотрите и другие варианты AMD Ryzen Threadripper PRO 5000WX или 3000WX.

Память

8 x DIMM слотов. DDR4 только 8-канальная архитектура. Поддержка 3200/2933/2666/2400/2133 MHz; ECC & non-ECC; buffered & unbuffered; UDIMM, RDIMM, 3DS R-DIMM, LRDIMM. Всего до 2 ТБ (256 ГБ single LRDIMM capacity).

В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 3200 MT/s.

Сеть

В сервере встроено два порта 2 x 10GbE BaseT, однако, они могут не работать в локальной сети, потому как десятигигабитные. Понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB. Цены разные, от 400 руб и выше.

Примеры:

  • Сетевой адаптер BROADCOM BCM5720-2P (2 порта)

В данном случае лучше посоветоваться с тем, кто занимается вашей локальной сетью.

При установке 4 GPU можно установить только USB сетевой адаптер, потому как все PCIe слоты будут перекрыты видеокартами.

Окружающая среда

Для GPU заявлено энергопотребление 300 Вт, но с периферией, скорее 500 Вт. БП стоят два, на 2.6 кВт. Уровень шума не указан.

Заключение

В итоге получилась такая начальная конфигурация:

  • Сервер W771-Z00. С внешними вентиляторами для GPU.
  • Один процессор AMD Ryzen Threadripper Pro 5975WX 32 ядра, 3.6 базовая, 4.5 турбо (или другой на ваш выбор)
  • Память 512 ГБ
  • NVIDIA A100 80GB PCIe GPU
  • Сетевая карта 1 гигабит PCIe, двухпортовая (Или USB, если не останется PCIe слотов)
  • Два SATA HDD с оборотам 7200 RPM объёмом 2 ТБ или более
  • Один SATA SSD объёмом 1 ТБ или более (понадобится переходник)

Цены

 

Похожие материалы

Пятый прототип сервера в корпусе ExeGate для четырёх GPU GeForce RTX 4090

Всем привет, продолжаем собирать сервер для GPU. Сегодня будет пятый прототип сервера на базе корпуса для майнинга ExeGate Pro 6-470.