Перейти к основному содержанию

Управление порогами через ipmitool, это трэш

Supermicro

Сегодня вспоминал свою старую статью о том, как можно управлять скоростью работы вентиляторов Supermicro с помощью ipmitool.

Supermicro — управление вентиляторами

Я тогда писал и, добавляя информацию и примерах, думал, что менять пороговых значений сенсоров самому вряд ли кому-то может понадобиться. Тем более мне. Как я ошибался. Сегодня как раз столкнулся с досадным примером, когда такие настройки всё-таки пришлось внести.

В сервер воткнуто четыре одинаковые видеокарты, у одной из них оказались пониженные параметры пороговых значений, из-за которых сервер может неожиданно повести себя непредсказуемо. От троттлинга и перезагрузки в самый важный момент до... алертов на пустом месте.

Инженеры Supermicro меняют параметры пограничных значений и самих IPMI сенсоров. Бесит что с очередной прошивкой IPMI BMC могут вернуться те самые проблемы, от которых мы сегодня избавимся. И могут и какие-то новые появится. Идеально есть проблем, наоборот, станет меньше. Иногда такой случается, когда в именах некоторых сенсоров в конце стояло некоторое случайное количество пробелов, из-за чего Zabbix не мог эти сенсоры обнаружить.

Итак, немного теории.

Хелп по изменению пороговых значений сенсора:

ipmitool -I lanplus -H хост -U логин -P пароль sensor thresh
sensor thresh <id> <threshold> <setting>
  id        : name of the sensor for which threshold is to be set
  threshold : which threshold to set
                unr = upper non-recoverable
                ucr = upper critical
                unc = upper non-critical
                lnc = lower non-critical
                lcr = lower critical
                lnr = lower non-recoverable
  setting   : the value to set the threshold to
sensor thresh <id> lower <lnr> <lcr> <lnc>
  Set all lower thresholds at the same time
sensor thresh <id> upper <unc> <ucr> <unr>
  Set all upper thresholds at the same time

С теорией закончили, переходим к практике.

ipmitool -I lanplus -H хост -U логин -P пароль sensor list | grep GPU

Видим четыре датчика температуры на GPU картах. У последнего верхние пороги такие: na, 86, 89. Это не совпадает с тремя другими картами, нужно установить na, 99, 104. Они идут в таком порядке:

  1. <unc> upper non-critical
  2. <ucr> upper critical
  3. <unr> upper non-recoverable

В <unc> мы не сможем воткнуть na, система не поймёт наших поползновений и ругнётся ошибкой. Поэтому в <unc> мы пишем то же самое, что и в <ucr>. В этом случае ipmitool видит одинаковые пограничные значения и лишнего просто не пишет.

ipmitool -I lanplus -H хост -U логин -P пароль sensor thresh "имя_сенсора" upper unc ucr unr

У меня:

ipmitool -I lanplus -H хост -U логин -P пароль sensor thresh "GPU5 Temp" upper 99 99 104

gpu

Вот и всё. Система приведена в стабильное состояние.

Теги

Цены

 

Похожие материалы

Сервер Supermicro SYS-6018R-MT (firmware)

Supermicro SYS-6018R-MT - недорогой одноюнитовый девайс с одним блоком питания.

Мониторинг сервера можно настроить через IPMI, шаблоны для заббикса есть, правда допиливать всё равно пришлось, позже выложу статью с шаблонами, если кому-то понадобятся. Минус всё тот же - мониторить винты нельзя. На борту имеется BMC (redfish) для удалённого управления. Есть некоторое количество сенсоров.

Выкладываю прошивки для сервера:

Установка ESXi 6.7 Update 3 на сервер Supermicro SYS-1029U-E1CR4

Для установки ESXi 6.7 Update 3 на сервер Supermicro SYS-1029U-E1CR4 Используем обычный некастомизированный образ гипервизора. На сервере установлен железный RAID контроллер Supermicro AOC-S3108L-H8iR-16DD, на котором создано два RAID массива RAID10 и RAID5.