Перейти к основному содержанию

Замена NVMe диска Samsung NVMe 12.8 ТБ в сервере HPE

Samsung SSD MZPLL12THMLA-00005

Снова вышел из строя один из самых толстых NVMe дисков в нашей коллекции. Пострадал сервер HPE Proliant DL580 Gen 9.

Samsung SSD MZPLJ12THALA-00007 — NVMe 12.8 ТБ

Диск собран в RAID10 массив из шести дисков на базе mdadm, потеря данных не допущена. Сбойный диск автоматически удалился из массива. Нужно брать запасной диск и ехать менять.

Небольшая сложность состоит в том, что серийный номер неисправного диска недоступен. Диск не определяется в системе, инвентаризационные данные не удаётся получить. Контроллер диска не отвечает. Поэтому я просто распечатал серийные номера работающих дисков, чтобы вычислить неисправный. 

Замена такого диска возможна только с отключением сервера. Выключаем сервер, выдвигаем из стойки.

nvme

Смотрим в зону PCIe. Какой-то из этих восьми дисков неисправный. Вычислить точный диск невозможно, он не подсвечивается светодиодом, сбоку нет маркировки с серийным номером. Придётся по очереди доставать все.

nvme

Все диски в зоне PCIe фиксируются скобой, винты не нужны. Нажимаем на неё.

hpe

С дисками теперь можно работать.

nvme

По очереди извлекаю диски и складываю в стопку, чтобы потом в том же порядке установить обратно.

nvme

Неисправный диск найден, его серийный номер отличается от заранее составленного списка серийных номеров рабочих дисков.

hpe

Производим замену неисправного диска.

nvme

Устанавливаем ранее извлечённые диски обратно.

nvme

Физическая замена диска произведена. Собираю всё обратно, включаю сервер и добавляю новый диск в массив.

Ссылки

mdadm — полезные команды

Цены

 

Похожие материалы

HP Proliant DL360 Gen9 — установка PCIe NVMe диска

Устанавливаю PCIe NVMe диск в сервер HP Proliant DL360 Gen9. Диск корпоративного класса, объём 12.8 ТБ от Samsung. Интерфейс PCIe Gen4 не поддерживается материнской платой, но диск работает и на PCIe Gen3.

Вышли из строя диски сразу в двух серверах

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало.