Замена NVMe диска Samsung NVMe 12.8 ТБ в сервере HPE

Олег

10 марта 2024

Снова вышел из строя один из самых толстых NVMe дисков в нашей коллекции. Пострадал сервер HPE Proliant DL580 Gen 9.

Samsung SSD MZPLJ12THALA-00007 — NVMe 12.8 ТБ

Диск собран в RAID10 массив из шести дисков на базе mdadm, потеря данных не допущена. Сбойный диск автоматически удалился из массива. Нужно брать запасной диск и ехать менять.

Небольшая сложность состоит в том, что серийный номер неисправного диска недоступен. Диск не определяется в системе, инвентаризационные данные не удаётся получить. Контроллер диска не отвечает. Поэтому я просто распечатал серийные номера работающих дисков, чтобы вычислить неисправный.

Замена такого диска возможна только с отключением сервера. Выключаем сервер, выдвигаем из стойки.

Смотрим в зону PCIe. Какой-то из этих восьми дисков неисправный. Вычислить точный диск невозможно, он не подсвечивается светодиодом, сбоку нет маркировки с серийным номером. Придётся по очереди доставать все.

Все диски в зоне PCIe фиксируются скобой, винты не нужны. Нажимаем на неё.

С дисками теперь можно работать.

По очереди извлекаю диски и складываю в стопку, чтобы потом в том же порядке установить обратно.

Неисправный диск найден, его серийный номер отличается от заранее составленного списка серийных номеров рабочих дисков.

Производим замену неисправного диска.

Устанавливаем ранее извлечённые диски обратно.

Физическая замена диска произведена. Собираю всё обратно, включаю сервер и добавляю новый диск в массив.

Ссылки

mdadm — полезные команды

Цены

💰 Поддержать проект

HP Proliant DL360 Gen9 — установка PCIe NVMe диска

Олег

19 ноября 2020
Подробнее о HP Proliant DL360 Gen9 — установка PCIe NVMe диска

Устанавливаю PCIe NVMe диск в сервер HP Proliant DL360 Gen9. Диск корпоративного класса, объём 12.8 ТБ от Samsung. Интерфейс PCIe Gen4 не поддерживается материнской платой, но диск работает и на PCIe Gen3.

Вышли из строя диски сразу в двух серверах

Олег

31 августа 2024
Подробнее о Вышли из строя диски сразу в двух серверах

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало.