Когда-то я подбирал сервер Supermicro для четырёх GPU NVIDIA A100 на базе Supermicro.
Сервер для четырёх GPU NVIDIA A100 на базе Supermicro
На базе Supermicro был подобран сервер GPU SuperServer SYS-741GE-TNRT. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK. Сервер дополнительно имеет возможность установки в стойку.
Но сейчас у меня есть возможность собрать более бюджетный вариант. Использую сервер Supermicro GPU SuperWorkstation 7049GP-TRT. В сервер можно установить до 4 больших GPU 10.5' двойной ширины. Для GPU с пассивным охлаждением может понадобиться комплект вентиляторов MCP-320-74702-0N-KIT, мне не понадобился. Особенности:
- Два процессора (LGA 3647), поддержка процессоров 2nd Gen Intel Xeon Scalable (Cascade Lake/Skylake)
- 16 DIMMs; до 4TB 3DS ECC DDR4-2933MHz RDIMM/LRDIMM, поддержка Intel Optane DCPMM
- PCIe
- 4 PCI-E 3.0 x16 (double-width) slots
- 2 PCI-E 3.0 x16 (single-width) slots\
- 1 PCI-E 3.0 x4 (in x8) slot
- 8 Hot-swap 3.5" drive bays
- 2x 10GBase-T LAN ports
- 1 VGA, 2 COM, 5 USB 3.0
- Охлаждение
- 4 внутренних вентилятора
- 2 радиатора на процессоры с управляемыми вентиляторами
- 2 вытяжных вентилятора
- 2 опциональных вентилятора для пассивных GPU
Для начала мы будем устанавливать две карты A100, соответственно, понадобится только один процессор.
Краткая спецификация NVIDIA A100 80GB PCIe
- Product SKU
- P1001 SKU 230
- NVPN: 699-21001-0230-xxx
- Total board power
- 300 W default
- 300 W maximum
- 150 W minimum
- Thermal solution: Passive
- Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
- GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
- PCI Express interface: PCI Express 4.0 ×16
- Power connectors and headers: One CPU 8-pin auxiliary power connector
NVLINK
Для поддержки NVLINK необходима установка карт попарно рядом.
- Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
- Всего NVLINK Rx и Tx линий поддерживается: 96
- Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
- Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с
В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.
Питание GPU
Расположение разъёма питания:
Собираем сервер
Собирать сервер особо и не приходится. Один процессор уже установлен, пара планок памяти, два диска в RAID1.
Лишнее только выкину. Изначально в сервере была сетевая карта SFP+, она мне не понадобится, снимаю.
Устанавливаю GPU NVIDIA A100 в первые два слота материнской платы, фиксирую винтами.
Подключаю питание, переходники не нужны.
Устанавливаю все заглушки для лучшего охлаждения. Карты с пассивным охлаждением, помним об этом.
Каюсь, не успел никаких тестов прогнать, просто убедился что ОС видит карты. Пора везти сервер в ЦОД.
Крепим рельсы, они не идут в комплекте (MCP-290-00059-0B), их следует заказывать отдельно.
Устанавливаем в стойку. Понадобится два человека. Я обычно один ставлю, но поверьте, лучше это делать вдвоём. Передняя крышка при такой установке не требуется.
Кроссирую, подключаю питание, отдаю заказчику. Быстрая проверка (ОС уже установлена заранее). Проблем не наблюдается!