Перейти к основному содержанию

HPE Proliant — сбой электропитания

error

Если вы используете сервер HPE Proliant с RAID контроллером без батарейки, то при потере электропитания можете получить неприятную ошибку.

1779-Slot 1 Drive Array - Replacement drive(s) detected OR previously failed drive(s) now appear to be operational: <список дисков> Logical Drive(s) disabled due to possible data loss. Action: Resolve any issues that disabled drive. Restore data from backup if drive(s) replaced.

Дальше могут быть варианты. Могут быть предложения продолжить без дисков или согласиться с потерей данных и восстановить массив.

Select F1 to continue with logical drive(s) disabled
Select F2 to accept data loss and to re-enable logical drive(s)

Или может быть вариант, где можно перейти к меню с просмотром проблем при работе системы.

Обычно сервер продолжает грузиться и, если на массиве была система, загрузиться не может.

Собственно, причина ошибки простая. RAID контроллер зафиксировал подключение дисков после сбоя электропитания. В этом случае данные в массиве могут быть не согласованы, что-то могло не записаться.

Если согласиться с "data loss and to re-enable logical drive(s)", то массив или соберётся или нет. Как правило, после обычного отключения питания массив собирается.

Если зайти в SSA и посмотреть состояние массивов, то увидим страшную ошибку:

...All data on this drive has been lost...

Могли бы написать что-нибудь менее страшное.

hpe

В опциях логического диска есть вариант Re-enable Failed Logical Drive. Но я не люблю ей пользоваться.

hpe

Или выбираю при загрузке вариант:

Select F2 to accept data loss and to re-enable logical drive(s)

Или проваливаюсь в список проблем System Health.

hpe

Видим проблему с контроллером: 

[ Configuration Required ] Slot 3 Port 1 : Smart Array P840 Controller

Проваливаемся внутрь.

hpe

Видим подробную ошибку. Проваливаемся в пункт:

Health Status: Configuration Required
hpe

Из предложенный вариантов выбираем Repair. Если повезёт, то массив восстановится и всё будет работать нормально. Даже если всё восстановится, это звоночек.

Что можно предложить ещё?

Как минимум можно задуматься:

  • Не купить ли батарейку для контроллера?
  • Не использовать ли разные электрические вводы?
  • Не поставить ли ИБП?
  • Не проверить ли как работает система резервного копирования, если она есть?
  • Не забэкапить ли данные сервера, если бэкапов нет?
  • Не поставить ли второй резервный сервер на другую площадку?
  • Не рассмотреть ли резерв в облаке?

Теги

Цены

 

Похожие материалы

Вышли из строя диски сразу в двух серверах

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало.

Замена диска в HP MSA 2040

В СХД HP MSA 2040 начал выходить из строя диск. Он пока не отметился как failed, но практически каждый день на нём стали происходить ошибки вида: .1.3.6.1.4.1.11.2.51.0.3001 Normal "General event" 10.10.10.12 - 3878 3 Event type: 58, An event was reported by a disk drive. (disk: channel: 0, ID: 1, SN: XXXXXXXX, enclosure: 1, slot: 2) (Key,Code,Qual,UEC:0xB,0x11,0x3,0x0000) (CDB:Rd 27212000 0800)(Info:0x272125AA)(CmdSpc:0x0, FRU:0x42, SnsKeySpc:0x0)(Aborted Command, multiple read errors)

HPE Proliant DL360 Gen10 — описание и фото

HPE Proliant DL360 Gen10 — безопасный высокопроизводительный компактный сервер в корпусе 1U отличается высокой вычислительной мощностью благодаря использованию в Gen10 поколении новых процессоров семейства Intel Xeon Scalable и высокочастотной памяти DDR4-2666. Идеально подходит для виртуализации, работы с базами данных. Автоматизация важных задач управления жизненным циклом сервера с помощью решений HPE OneView и HPE iLO 5 упрощает процессы развертывания, обновления, мониторинга и обслуживания.