Снова вышел из строя один из самых толстых NVMe дисков в нашей коллекции. Пострадал сервер HPE Proliant DL580 Gen 9.
Samsung SSD MZPLJ12THALA-00007 — NVMe 12.8 ТБ
Диск собран в RAID10 массив из шести дисков на базе mdadm, потеря данных не допущена. Сбойный диск автоматически удалился из массива. Нужно брать запасной диск и ехать менять.
Небольшая сложность состоит в том, что серийный номер неисправного диска недоступен. Диск не определяется в системе, инвентаризационные данные не удаётся получить. Контроллер диска не отвечает. Поэтому я просто распечатал серийные номера работающих дисков, чтобы вычислить неисправный.
Замена такого диска возможна только с отключением сервера. Выключаем сервер, выдвигаем из стойки.
Смотрим в зону PCIe. Какой-то из этих восьми дисков неисправный. Вычислить точный диск невозможно, он не подсвечивается светодиодом, сбоку нет маркировки с серийным номером. Придётся по очереди доставать все.
Все диски в зоне PCIe фиксируются скобой, винты не нужны. Нажимаем на неё.
С дисками теперь можно работать.
По очереди извлекаю диски и складываю в стопку, чтобы потом в том же порядке установить обратно.
Неисправный диск найден, его серийный номер отличается от заранее составленного списка серийных номеров рабочих дисков.
Производим замену неисправного диска.
Устанавливаем ранее извлечённые диски обратно.
Физическая замена диска произведена. Собираю всё обратно, включаю сервер и добавляю новый диск в массив.