Перейти к основному содержанию

HP Smart Array — cache module status degraded

Hewlett Packard Enterprise

Статья-исследование. Докопаемся до источника проблемы и исправим её.

Как обычно ночью сработал мониторинг. Хорошо, что он сработал, даже отлично. Плохо что ночью.

На сервере HP Proliant DL360 Gen9 произошёл сбой. iLO выплюнуло ошибку, zabbix сервер поймал событие, сработал триггер аппаратной проблемы. По триггеру отправилось письмо, SMS и сработал скрипт, который отправил на Asterisk call-файл. И наша телефония дозвонилась до меня, ночью, зараза. Я не разобрал что там промямлил в трубку робот, но главная задача по поднятию админа была выполнена, как говорится, смотрите подробности в SMS.

Отказал кэш RAID контроллера Smart Array P440ar:

Cache Module Status — Degraded

hpe

На первый взгляд проблема не критичная, может ждать до утра. А утром начались проблемы, — сильная деградация по дискам. Больше суток ушло на то, чтобы переместить виртуальные машины с данного гипервизора на другой сервер. Я не замерял, но скорость переноса данных увеличилась раз в пять. Некоторые сервисы пришлось остановить.

Оказалось, что кэш RAID контроллера заметно оптимизирует работу массивов.

Поиск проблемы

Сервер уже не на гарантии, справляться с проблемой придётся самому.

Есть несколько возможных точек отказа:

  1. Проблема программная, возможно, из-за недавней прошивки RAID контроллера. Может помочь перезагрузка, сброс настроек RAID контроллера, выключение-включение кэша.
  2. Проблема с RAID контроллером. Может помочь прошивка или замена.
  3. Проблема с модулем кэша. Поможет разборка-сборка, замена модуля кэша.
  4. Проблема с проводами или контактами. Поможет разборка-сборка, переподключение батарейки, замена батарейки.
  5. Проблема с батарейкой. Поможет замена батарейки.

Первым делом перезагрузил сервер и iLO. Не помогло.

Проверил статус батарейки. Статус OK.

hpe

Непонятно, загрузимся в HPSSA (HP Smart Storage Administrator). Перезагружаем сервер, при загрузке нажимаем F9 для входа в System Utilities.

hpe

Выбираем System Configuration.

hpe

Выбираем проблемный контроллер: Embedded RAID 1: Smart Array P440ar Controller.

hpe

Выбираем Exit and launch HP Smart Storage Administrator (HPSSA).

hpe

Выбираем (уже выбрано) Smart Storage Administrator. Сюда же можно попасть выбрав F10 (Intelligent Provisioning) при загрузке, но нужно будет успеть переключить пункт в этом окне.

hpe

Дожидаемся загрузки Smart Storage Administrator.

hpe

Видно, что на RAID контроллере Smart Array P440ar светится предупреждение.

hpe

Текст ошибки здесь более информативный:

Smart Array P440ar in Embedded Slot has one or more cache module batteries/capacitors that are recharging. Caching operations such Expansion, Extension, and Migration are temporarily suspended until the batteries/capacitors are fully charged. Caching operations will automatically resume when charging is complete.

Получается, батарейка находится в процессе зарядки. Такое случается, если воткнуть разряженную батарейку. Ошибка пропадёт после полной зарядки. Но в моём случае батарейка уже давно установлена, ошибка сама не пропадает.

Выполним диагностику.

hpe

Server → Actions → Diagnose.

hpe

View Diagnostic Report.

hpe

Начинается сбор диагностических данных.

hpe

Кэш RAID контроллера отключён, других ошибок нет. Полистал отчёт, ничего особенного не обнаружил.

Посмотрим на кэш. Tools → Cache Manager → Controller Cache → Controller Cache Details.

hpe

  • Cache Status: Enabled, but not currently active.
  • Cache Status Details: Cache disabled; power source charging is low.
  • Battery/Capacitor Status: Recharging

Кэш отключён, т.к. батарейка заряжается, а уровень её заряда низок. Можно посмотреть больше деталей: View more details.

hpe

Более подробная информация нам особо не помогает, единственное, что интересно в нашем случае, это запись:

  • Enable Write Cache When Battery/Capacitor Not Present or Not Completely Charged: Disabled

В кэше контроллера есть опция, позволяющая включить кэш при отсутствии батарейки или при низком её заряде. Если бы сервер был боевым, если бы нам срочно нужно было наладить работу сервера, то включение этой опции нам бы очень помогло. Вот только включить эту опцию мы не можем, так, как кэш в настоящий момент отключён: There are no available actions. Печаль, но есть обходной манёвр.

Временное решение проблемы

Помимо кэша контроллера у каждого физического диска есть собственный кэш, который по умолчанию в RAID массивах отключён. Включим.

hpe

Smart Array P440ar → Actions → Configure → Modify Controller Settings.

hpe

Меняем галку Physical Drive Write Cache State на Enabled. Save Settings.

hpe

Controller Settings were successfully saved. Настройки сохранены. Как вы думаете, что сейчас произойдёт? Правильно, кэш RAID контроллера отключится... и все его предупреждения сбросятся.

Посмотрим на кэш. Tools → Cache Manager → Controller Cache → Controller Cache Details.

hpe

  • Cache Status: OK
  • Battery/Capacitor Status: OK

Даже батарейка перестала заряжаться. Но главное не это, появилась кнопка Modify Caching Settings, нажимаем.

hpe

Нас предупреждают, что включение кэша с плохой батарейкой приведёт к потере данных при внезапном отключении питания. Но всё же мы теперь можем, если очень захотим, включить опцию "Enable Write Cache When Battery/Capacitor Not Present or Not Completely Charged". Я не буду включать, срочного у меня ничего нет. Если сейчас снова отключить кэш физических дисков, то ошибка не вернётся до следующего цикла проверки батареи.

Становится понятно, что проблема в самой батарейке или в её проводах. Убедимся в этом. Перезагружаем сервер, жмём F9, во встроенных приложениях загружаем диагностический режим. Выполняем экспресс-проверку системы.

hpe

При проверке батарей: Основная — Заменить.

Решение проблемы

Меняем батарейку в сервере:

Видео замены батарейки в HPE Proliant DL360 Gen9

После замены батарейки снова загружаем диагностический режим и выполняем экспресс-проверку системы.

hpe

Проверка батареи : Основная — ОК. Ошибок нет.

Теги

 

Похожие материалы

DIMM Failure — HPE Proliant Server

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок: POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory. POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system. POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Теги