У нас новый проект по апгрейду сервера, будем забивать корпус видеокартами. Типовая задачка для системного администратора.
Перед апгрейдом любого сервера нужно читать документацию, а потом ещё раз.
Менеджер проекта спрашивает разработчика: "почему система так долго выполняет расчёты"? "Так надо ещё пару видеокарт воткнуть, и мостом их соединить" - отвечает разработчик. "Отлично, купим две видеокарты и пару мостов. Потом дадим админам, чтобы вставили!"
Вот ТАК делать не надо.
Комплектующие для апгрейда-
Имеем сервер Supermicro GPU SuperWorkstation 7049GP-TRT, он поддерживает до 4 больших GPU 10.5' двойной ширины. Сейчас там стоит две видеокарты, сетевуха и всё это с одним процессором.
- Сервер: Supermicro GPU SuperWorkstation 7049GP-TRT
- Две видеокарты с активным охлаждением: MSI Geforce RTX 3090 AERO 24G
- Процессор: Intel Xeon Silver 4210 CPU @ 2.20GHz
- Память: 128 Гб 2400 МГц
- Сетевая карта на два порта SFP+
Для того чтобы добавить ещё две видеокарты потребуется:
- Две видеокарты с активным охлаждением: GIGABYTE GeForce RTX 3090 TURBO 24G
- Второй процессор: Intel Xeon Silver 4210 CPU @ 2.20GHz
- Кулер для процессора Supermicrо SNK-P0070APS4 (должен быть в комплекте с шасси)
- Память для второго процессора: 128 Гб 2400 МГц
- Четыре кабеля Supermicro CBL-PWEX-1040 (должны быть в комплекте с шасси)
- Два моста NVLink Bridge Ampere (2-slot) (по желанию заказчика)
Процессор покупаем, он должен быть идентичным установленному.
Память тоже покупаем. Можно было отобрать пару планок у первого процессора, но бюджет позволяет.
Кулер для процессора Supermicrо SNK-P0070APS4 был в комплекте, откопал в шкафу, покупать не придётся.
Точно таких же видеокарт, которые уже стояли, в продаже не было, выбрали тоже с чипом GeForce RTX 3090, но от другого производителя. Видеокарта GIGABYTE GeForce RTX 3090 TURBO 24G с графическим процессором NVIDIA GeForce RTX 3090. Прекрасна она тем, что оснащена турбиной для активного охлаждения. Такое решение позволяет выводить горячий воздух за пределы системного блока, при этом сами размеры видеокарты вписываются в два PCIe слота.
Вот как раз ширина в два PCIe слота и была критерием выбора, иначе четыре GPU в такой сервер не установить.
Два моста NVLink Bridge Ampere (2-slot) тоже выбраны исходя из ширины устанавливаемых видеокарт.
Четыре кабеля Supermicro CBL-PWEX-1040 должны быть в комплекте с шасси, однако, их не было. Было только пару штук. Пришлось обратиться к поставщику по вопросу доукомплектации, а пока временно возьму два кабеля из заначки.
По сусекам помели, набрали комплект для апгрейда сервера. Просто двух видеокарт недостаточно. Собираем всё и выдвигаемся в ЦОД.
Апгрейд сервера
Работы предстоит много, поэтому планируем простой, часа на два. Сервер нужно будет снимать, установлен высоковато, удобнее будет опустить на пол.
Выключаем сервер, извлекаем из стойки. Снимаем крышку.
По фотографии всё и так понятно. Видеокарты придётся переставить, один NV-Link будем устанавливать на MSI карты, второй на Gigabyte, поэтому карты нужно будет сдвинуть.
Да и сетевуху переставим, эту сборку делали поставщики, непонятно почему так всё поставили, сделаем так как нужно. Первая карта MSI занимает второй двойной PCIe слот и стоит на своём месте. Трогать её не будем.
И почему я сразу в прошлый раз платы на место не поставил? Ну да ладно, у нас есть прекрасная возможность привести всё в порядок. Извлекаем сетевую карту, поставим её в самом конце в слот PCIe 3.0 x4 (in x8). Кстати, это у нас Supermicro AOC-STGN-i2S, что видно по прекрасному зелёному радиатору.
Supermicro AOC-STGN-i2S — обзор
Переставляем вторую карту MSI в первый двойной PCIe слот. Соединяем карты мостом NV-Link. Ничего сложного в установке моста нет.
Каждую видеокарту подключаем к питанию кабелем Supermicro CBL-PWEX-1040. Кабели уже были подключены к видеокартам, так что сложностей не возникло.
Мы освободили немного пространства в корпусе, теперь будет удобно устанавливать второй процессор.
- Processor: Intel Xeon Silver 4210 CPU @ 2.20GHz
- Speed: 2200 MHz
- Core: 10
- Core Active: 10
- Manufacturer: Intel Corporation
Supermicro GPU SuperWorkstation 7049GP-TRT — установка процессора
Перед началом установки изучаем все инструкции.
На процессор понадобится охлаждение.
Кулер для процессора Supermicrо SNK-P0070APS4
Активный кулер с радиатором для корпуса Supermicro. Предназначен для серверов и рабочих станций общего назначения 4U поколения Supermicro X11, оснащенных масштабируемыми процессорами Intel Xeon. Радиатор был полностью протестирован и одобрен Supermicro. На радиатор уже нанесена термопаста.
Достаём из комплекта охлаждения монтажную рамку.
Вставляем в неё процессор. Инструкция имеется в комплекте охлаждения.
Устанавливаем процессор с планкой на радиатор.
На радиаторе уже имеется нанесённый заводской слой термопасты.
Снимаем заглeшку с сокета. На первом процессоре уже стоит радиатор, можно прикинуть что в итоге должно получиться.
Устанавливаем процессор в сокет. Внимательно следуем меткам в углу сокета, совмещая с треугольником на процессоре и планке.
Порядок затяжки болтов указан на радиаторе.
Понадобится длинный шестигранник или торкс. Затягиваем четыре болта.
Устанавливаем радиатор и закрепляем его болтом из комплекта охлаждения. Надпись "Air Flow Direction" подскажет, куда нужно направить ветер. Если сомневаемся, подглядываем как стоит кулер на первом процессоре.
Питание вентилятора подключаем к материнской плате. ? Помоги Даше найти разъём для подключения вентилятора на фото. ? Подсказка, он над слотами для DIMM.
Готовим память.
- Max Capable Speed: 2933 MHz
- Operating Speed: 2400 MHz
- Size: 32768 MiB
- Part No.: M393A4K40DB2-CVF
- Manufacturer: Samsung
Слоты подписаны на материнской плате.
Изучаем таблицу с порядком установки планок памяти. Мне нужен вариант 2 CPUs & 8 DIMMs. Собственно, устанавливаю как на первом процессоре.
Устанавливаем оперативную память.
С процессором закончили, теперь поставим вторую пару GPU.
Перед установкой подключаем к каждой видеокарте кабель питания Supermicro CBL-PWEX-1040. После установки его тоже можно подключить, но очень неудобно.
Устанавливаем GPU в третий и четвёртый двойные PCIe слоты.
Подключаем питание.
На вторую пару GPU устанавливаем мост NV-Link.
Прекрасно.
Почти всё собрано.
Устанавливаем сетевую карту подальше от GPU в седьмой одинарный PCIe 3.0 x4 (in x8) слот. Возвращаем в неё трансиверы.
После того как мы включим сервер, нужно будет перенастроить сеть, потому как названия интерфейсов у сетевой карты изменятся. Там Ubuntu 18.04.5 LTS крутится.
Закрываем сервер и устанавливаем обратно в стойку.
Проверка
Проверим, что железо определилось.
Процессор и память проверяю в BIOS. Потом загружаю ОС Ubuntu 18.04.5 LTS.
lspci | grep NVIDIA
GPU определились. Проверим NV-Link.
nvidia-smi topo --matrix
Топология верна.
Настраиваю сеть (слетели имена интерфейсов после перестановки карты) и выдвигаюсь домой. Мавр сделал своё дело, мавр может уходить.