Имеем:
- Сервер Dell PowerEdge R740xd2
- RAID контроллер PERC H730P Mini (Embedded)
- RAID1 массив из двух SSD
- RAID6 массив из 24 HDD
А потом всё сломалось. Произошёл сбой массива, часть дисков (9 из 24-х) в состоянии FOREIGN. В логах:
A fatal error was detected on a component at bus 23 device 0 function 0.
A fatal IO error detected on a component at bus 22 device 2 function 0.
В каждом массиве половина дисков пропало. Перезагружаем сервер.
Если RAID1 после этого выжил, но упал в DEGRADED, то RAID6 стал FAILED. 229 Терабайт хлама, или ещё не всё потеряно?
RAID1 массив восстанавливается, статус Rebuilding. Здесь всё приемлемо, массив восстановится сам.
А вот с RAID6 всё плохо. Девять дисков удалены из массива. Удалённые диски находятся в состоянии Foreign.
Что делать?
На самом деле шансы восстановить массив есть. Вся нужная конфигурация записана на дисках, просто RAID контроллер её потерял и считает чужой. Нужно эту конфигурацию импортировать. Я сначала пытался сделать это через iDRAC, но операция завершилась ошибкой. Потом решил работать из BIOS.
Device Settings.
Переходим к управлению контроллера. Integrated RAID Controller 1: Dell PERC <PERC H730P Mini> Configuration Utility.
Configuration Management.
Manage Foreign Configuration.
Preview Foreign Configuration.
Здесь ещё указывается список дисков. Import Foreign Configuration.
Далее импортируем конфигурацию с дисков, выпавших из массива.
Операция прошла успешно.
Диски теперь в статусе Online. Перезагружаю сервер и...
Видим положительную динамику. Массив из статуса Failed перешёл в состоянии Degraded. А это уже совсем другая история!
Один диск так и остался в состоянии Foreign. Почистил его.
Вместо него подцепился Spare диск и массив начал перестроение — Rebuilding.
Очищенный диск я добавил как Spare.
Сейчас массив ребилдится, но данные доступны, продолжаем работу.
UPD
Один диск так и падает в Foreign после проверки целостности. Возможно, именно он и послужил причиной проблемы. Будем менять. Массив сейчас работает, но нет Spare.