Пять месяцев назад на сервере Dell PowerEdge R740xd2 почти рассыпался массив.
Dell — рассыпался массив, почти...
Слово "почти" здесь несёт позитивный характер. Массив рассыпался, развалился, просто его удалось восстановить.
- Сервер Dell PowerEdge R740xd2
- RAID контроллер PERC H730P Mini (Embedded)
- RAID1 массив из двух SSD
- RAID6 массив из 24 HDD
Произошёл сбой массива, часть дисков (9 из 24-х) в состоянии FOREIGN. В логах:
A fatal error was detected on a component at bus 23 device 0 function 0.
A fatal IO error detected on a component at bus 22 device 2 function 0.
В каждом массиве половина дисков пропало. Если RAID1 выжил, но упал в DEGRADED, то RAID6 стал FAILED. 229 Терабайт хлама. RAID1 массив восстановился сам. RAID6 пришлось собирать вручную. В итоге всё заработало, но один диск так и продолжал падает в Foreign после проверки целостности. Был сделан вывод, именно он и послужил причиной проблемы. Заказали новый диск на замену. Сбойный диск перевели в Spare.
Через месяц снова начались проблемы, сервер завис на несколько секунд, сбойный диск снова стал Foreign. Так дело не пойдёт. Принято решение — извлечь сбойный диск не дожидаясь нового.
Уже несколько раз сталкиваюсь с ситуацией, что достаточно просто выдернуть кривой диск, чтобы устранить проблему. Приедет новый диск — вставим на свободное место.
Нам известно, что сбойный диск находится в пятом слоте. Индикация диска ничем не отличается от других. Слоты подписаны, но лучше подстраховаться, подсветить диск.
В iDRAC в списке дисков выделаем нужный (вернее ненужный) и нажимаем кнопку Blink.
Подтверждаем операцию. Индикатор диска начинает мигать.
Извлекаем диск.
Вот он, корень зла.
В iDRAC теперь ошибка, естественно, рабочий диск выдернули.
На сервере горит оранжевый диод.
Disk 5 in Backplane 2 of integrated RAID Controller 1 is removed.
Drive 5 is removed from disk drive bay 1.
Просто чистим лог и перезагружаем iDRAC.
Ошибки больше нет.