Учимся получать информацию о статусе контроллеров MegaRAID и батарей в Linux.
Недавно устанавливали батарейки на контроллеры:
CacheVault CVPM02 для контроллера MegaRAID SAS 9380-8i8e
И вот, похоже, что одна из батареек перестала работать. Проверим и идентифицируем проблему. Для комплексной проверки воспользуемся утилитами lsiget и storcli.
lsiget
Качаем утилиту:
https://www.broadcom.com/support/knowledgebase/1211161499563/lsiget-data-capture-script
Утилита lsiget доступна для различных ОС. Я качаю для Linux.
Заливаем утилиту на сервер Linux. Даём права на выполнение файлу lsigetlinux_092518.sh:
chmod +x ./lsigetlinux_092518.sh
Помощь:
./lsigetlinux_092518.sh -H
Запускаем от рута:
./lsigetlinux_092518.sh -D -Q
Capture_Script_Version_091218
14:57:48.722089215
./lsigetlinux_092518.sh: line 2050: ./: Это каталог
Starting Generic Smartctl Data Collection...
Starting MegaRAID Controller Data Collection with storcli...
В процессе работы утилита создаёт кучу файлов.
Файлы потом собираются в папку и упаковываются в архив.
Анализируя логи можно определить проблему. К примеру, видно, что с батарейкой нелады:
Code: 0x00000096
Class: 3
Locale: 0x08
Event Description: Battery has failed and cannot support data retention. Please replace the battery
Event Data:
===========
После работы скрипта lsiget остаётся папка Utils, в ней есть файл storcli.
storcli
Выполним:
./storcli show
Результат:
CLI Version = 007.0606.0000.0000 Mar 20, 2018
Operating system = Linux 4.1.12-124.20.3.el7uek.x86_64
Status Code = 0
Status = Success
Description = None
Number of Controllers = 2
Host Name = db-bck00
Operating System = Linux 4.1.12-124.20.3.el7uek.x86_64
StoreLib IT Version = 07.0603.0200.0000
StoreLib IR3 Version = 15.53-0
System Overview :
===============
---------------------------------------------------------------------------------------
Ctl Model Ports PDs DGs DNOpt VDs VNOpt BBU sPR DS EHS ASOs Hlth
---------------------------------------------------------------------------------------
0 AVAGOMegaRAIDSAS9380-8i8e 16 24 2 0 2 0 Opt On 1&2 Y 3 Opt
1 AVAGOMegaRAIDSAS9361-16i 16 24 2 0 2 0 Fld On 1&2 Y 1 NdAtn
---------------------------------------------------------------------------------------
Ctl=Controller Index|DGs=Drive groups|VDs=Virtual drives|Fld=Failed
PDs=Physical drives|DNOpt=DG NotOptimal|VNOpt=VD NotOptimal|Opt=Optimal
Msng=Missing|Dgd=Degraded|NdAtn=Need Attention|Unkwn=Unknown
sPR=Scheduled Patrol Read|DS=DimmerSwitch|EHS=Emergency Hot Spare
Y=Yes|N=No|ASOs=Advanced Software Options|BBU=Battery backup unit
Hlth=Health|Safe=Safe-mode boot
На одном экране видно место проблемы.
Есть два контроллера:
- AVAGOMegaRAIDSAS9380-8i8e в состоянии Opt - Optimal.
BBU (Battery backup unit) у этого контроллера в состоянии Opt - Optimal. - AVAGOMegaRAIDSAS9361-16i в состоянии NdAtn - Need Attention.
BBU (Battery backup unit) у этого контроллера в состоянии Fld - Failed.
Место проблемы выявлено, теперь нужно выключить сервер и заменить батарею LSICVM02 у контроллера AVAGOMegaRAIDSAS9361-16i.