На сервере HPE ProLiant DL380 Gen10 вышел из строя RAID контроллер HPE Smart Array P816i-a SR Gen10. Будем менять.
Причина замены — неадекватное поведение при нагрузки. Подозреваю, что проблема с кешированием. Контроллер работает нормально, но при большой нагрузке просто перестаёт реагировать на раздражители. После сбоя даже SSA не видит устройство:
No controllers detected
После перезагрузки по питанию контроллер снова виден с ошибкой:
Embedded RAID 1 : HPE Smart Array P816i-a SR Gen10 - Operation Failed.
1719-Slot 0 Drive Array - A controller failure event occurred prior to this power-up. (Previous lock up code = 0x2F101) Action: Install the latest controller firmware. If the problem persists, replace the controller.
Поддержка HPE выносит решение — заменить RAID контроллер по гарантии.
Ссылки
Сервер HPE Proliant DL380 Gen10 — обзор
HPE Smart Array P816i-a SR Gen10 — RAID контроллер
Упаковка и комплектация
Новый контроллер доставили в коробке.
Внутри поролон.
Контроллер хорошо защищён от ударов.
RAID контроллер упакован в антистатический пакет.
Замена RAID контроллера
Выключаем сервер.
Снимаем крышку.
Контроллер крепится двумя винтами, их можно выкрутить рукой.
Отсоединяем кабели.
Тянем за шильдик и снимаем старый RAID контроллер.
Контроллер снят.
На место старого контроллера устанавливаем новый (PUSH HERE TO INSTALL), закручиваем винты и подключаем кабели.
Перед включением я сначала отсоединяю диски, чтобы зайти в SSA и убедиться, что новый контроллер работает в режиме RAID.
Готово, контроллер заменён. Выключаю сервер, вставляю жёсткие диски, включаю сервер.