Перейти к основному содержанию

История о бракованных серверах Supermicro SYS-2029U-TN24R4T

Supermicro SYS-2029U-TN24R4T

Есть у нас пара серверов Supermicro SYS-2029U-TN24R4T из одной партии. В каждый сервер можно запихнуть 24 NVMe диска. Сначала мы купили только по 7 дисков в сервер. Сервера прекрасно работали некоторое время, потом места стало не хватать.

Сервер Supermicro SYS-2029U-TN24R4T

Мы купили ещё несколько дисков, добавили в сервера, расширили массивы. Теперь в каждом сервере красовалось по 11 дисков. Сервера ещё проработали немного, и, как вы уже догадались, снова стало не хватать места.

SSD 7.68 TB Intel P4610 Series SSDPE2KE076T801

intel

Мы купили ещё дисков. Поехал я в ЦОД, стал устанавливать диски, а в 14-м слоту диск не определяется. Первая мысль — диск дохлый. Но когда уже и третий диск не определился, я стал что-то подозревать. Переткнул нерабочий диск из 14-го слота в 15-й, и диск заработал.

supermicro

Ага! — подумал я, — бэкплейн битый. Дисковая корзина попалась с дефектом, или не контачит что-то.

Обратились в техподдержку поставщика, потом отправили видео в Supermicro. Пришёл ответ:

Unfortunately it seems quite obvious that it's likely backplane problem so there is no much we can help on this matter .

Please apply for a RMA request via your supplier for the part BPN-NVME3-216EB (BPN-NVMe3-216A-S4 Backplane Base Board) .

NOTE:
This backplane assembly requires the following:
(a) 1 x BPN-NVMe3-216EB
(b) 2 x BPN-NVMe3-216EL
(c) 8 x MCP-110-0015-0N (Note: #6-32-6L PAN Head Mounting Screws)

Предлагают вернуть бэкплейн на замену.

Поставщик запросил серийные номера бэкплейна, а это, как ни крути, полная остановка и разборка сервера. Делать нечего, еду в ЦОД разбирать сервер...

Сервер Supermicro SYS-2029U-TN24R4T — замена Backplane

Разборка оказалась не очень сложной.

hpe

supermicro

Все серийные номера были зафиксированы, сервер снова собран и введён в строй. У меня была надежда на то, что после пересборки всё законтачит и проблема самоустранится. Но нет, 14-й слот так и не заработал.

supermicro

Пока шла переписка с поставщиком, я выделил день, чтобы расширить массив на втором сервере. Сгонял во второй ЦОД, воткнул диски и увидел неприятную картину, в 14-м слоту диск не определяется. Уже зная что увижу, переключаю диск в соседний слот и диск опеределяется.

supermicro

Выводы

Моментально можно сделать следующие выводы:

  • С дисками всё в порядке.
  • Со шлейфами всё в порядке.
  • Проблема может быть в бэкплейне, если поступила бракованная партия. Это маловероятно, но возможно.
  • Проблема может быть в самой модели сервера, где-то что-то напутали. Тоже маловероятно.
  • И самая здравая мысли, проблема связана с прошивками. Не знаю, можно ли обновить прошивку бэкплейна, но постараюсь дождаться свежего биоса и накатить его. Однако, мне пока нечем проверить работоспособность слота, потому как все диски я уже добавил в боевой массив...

Если кто-то столкнулся с той же проблемой — пишите, особенно, если вы её решили.

Теги

Цены

 

Похожие материалы

Zabbix шаблон для мониторинга сервера Supermicro SYS-6018R-MT

Делюсь полезным шаблоном для мониторинга сервера Supermicro SYS-6018R-MT. В шаблоне 44 элемента данных, 22 триггера и 5 графиков. Мониторим по IPMI.