Перейти к основному содержанию

Проверка статуса контроллеров Avago MegaRAID и батарей в Linux

Avago MegaRAID SAS 9380-8i8e

Учимся получать информацию о статусе контроллеров MegaRAID и батарей в Linux.

Недавно устанавливали батарейки на контроллеры:

CacheVault CVPM02 для контроллера MegaRAID SAS 9380-8i8e

И вот, похоже, что одна из батареек перестала работать. Проверим и идентифицируем проблему. Для комплексной проверки воспользуемся утилитами lsiget и storcli.

lsiget

Качаем утилиту:

https://www.broadcom.com/support/knowledgebase/1211161499563/lsiget-data-capture-script

lsi

Утилита lsiget доступна для различных ОС. Я качаю для Linux.

lsi

Заливаем утилиту на сервер Linux. Даём права на выполнение файлу lsigetlinux_092518.sh:

chmod +x ./lsigetlinux_092518.sh

Помощь: 

./lsigetlinux_092518.sh -H

Запускаем от рута:

./lsigetlinux_092518.sh -D -Q

Capture_Script_Version_091218
14:57:48.722089215
./lsigetlinux_092518.sh: line 2050: ./: Это каталог
Starting Generic Smartctl Data Collection...
Starting MegaRAID Controller Data Collection with storcli...

В процессе работы утилита создаёт кучу файлов.

lsi

Файлы потом собираются в папку и упаковываются в архив.

lsi

Анализируя логи можно определить проблему. К примеру, видно, что с батарейкой нелады:

Code: 0x00000096
Class: 3
Locale: 0x08
Event Description: Battery has failed and cannot support data retention. Please replace the battery
Event Data:
===========

После работы скрипта lsiget остаётся папка Utils, в ней есть файл storcli.

storcli

Выполним:

./storcli show

Результат:

CLI Version = 007.0606.0000.0000 Mar 20, 2018
Operating system = Linux 4.1.12-124.20.3.el7uek.x86_64
Status Code = 0
Status = Success
Description = None

Number of Controllers = 2
Host Name = db-bck00
Operating System  = Linux 4.1.12-124.20.3.el7uek.x86_64
StoreLib IT Version = 07.0603.0200.0000
StoreLib IR3 Version = 15.53-0

System Overview :
===============

---------------------------------------------------------------------------------------
Ctl Model                     Ports PDs DGs DNOpt VDs VNOpt BBU sPR DS  EHS ASOs Hlth
---------------------------------------------------------------------------------------
  0 AVAGOMegaRAIDSAS9380-8i8e    16  24   2     0   2     0 Opt On  1&2 Y      3 Opt
  1 AVAGOMegaRAIDSAS9361-16i     16  24   2     0   2     0 Fld On  1&2 Y      1 NdAtn
---------------------------------------------------------------------------------------

Ctl=Controller Index|DGs=Drive groups|VDs=Virtual drives|Fld=Failed
PDs=Physical drives|DNOpt=DG NotOptimal|VNOpt=VD NotOptimal|Opt=Optimal
Msng=Missing|Dgd=Degraded|NdAtn=Need Attention|Unkwn=Unknown
sPR=Scheduled Patrol Read|DS=DimmerSwitch|EHS=Emergency Hot Spare
Y=Yes|N=No|ASOs=Advanced Software Options|BBU=Battery backup unit
Hlth=Health|Safe=Safe-mode boot

На одном экране видно место проблемы.

Есть два контроллера:

  • AVAGOMegaRAIDSAS9380-8i8e в состоянии Opt - Optimal.
    BBU (Battery backup unit) у этого контроллера в состоянии Opt - Optimal.
  • AVAGOMegaRAIDSAS9361-16i в состоянии NdAtn - Need Attention.
    BBU (Battery backup unit) у этого контроллера в состоянии Fld - Failed.

Место проблемы выявлено, теперь нужно выключить сервер и заменить батарею LSICVM02 у контроллера AVAGOMegaRAIDSAS9361-16i.

Теги

 

Похожие материалы

Zabbix шаблон для мониторинга RAID контроллеров LSI в Linux

Делюсь полезным шаблоном для мониторинга RAID контроллеров LSI (Broadcom, Avago). Мониторим с помощью утилиты storcli. Шаблон делал сам.

Управление RAID контроллером LSI (Broadcom, Avago) с помощью StorCLI в Oracle Linux

Поступил вопрос написать о том, как разбиты диски на массивы в каком-то одном сервере Oracle Linux. Я, честно говоря, уже и не помню что мы там конфигурировали, воспользуемся средствами операционной системы и утилитой StorCLI.

Zabbix шаблон для мониторинга RAID контроллеров LSI, 4-я версия

Сижу я вечером дома после работы, вдруг, понимаю как вытащить данные о температуре и ошибках физических дисков контроллеров LSI.