Перейти к основному содержанию

Управление порогами через ipmitool, это трэш

Supermicro

Сегодня вспоминал свою старую статью о том, как можно управлять скоростью работы вентиляторов Supermicro с помощью ipmitool.

Supermicro — управление вентиляторами

Я тогда писал и, добавляя информацию и примерах, думал, что менять пороговых значений сенсоров самому вряд ли кому-то может понадобиться. Тем более мне. Как я ошибался. Сегодня как раз столкнулся с досадным примером, когда такие настройки всё-таки пришлось внести.

В сервер воткнуто четыре одинаковые видеокарты, у одной из них оказались пониженные параметры пороговых значений, из-за которых сервер может неожиданно повести себя непредсказуемо. От троттлинга и перезагрузки в самый важный момент до... алертов на пустом месте.

Инженеры Supermicro меняют параметры пограничных значений и самих IPMI сенсоров. Бесит что с очередной прошивкой IPMI BMC могут вернуться те самые проблемы, от которых мы сегодня избавимся. И могут и какие-то новые появиться. Идеально если проблем, наоборот, станет меньше. Иногда такое случается.

Итак, немного теории.

Хелп по изменению пороговых значений сенсора:

ipmitool -I lanplus -H хост -U логин -P пароль sensor thresh
sensor thresh <id> <threshold> <setting>
  id        : name of the sensor for which threshold is to be set
  threshold : which threshold to set
                unr = upper non-recoverable
                ucr = upper critical
                unc = upper non-critical
                lnc = lower non-critical
                lcr = lower critical
                lnr = lower non-recoverable
  setting   : the value to set the threshold to
sensor thresh <id> lower <lnr> <lcr> <lnc>
  Set all lower thresholds at the same time
sensor thresh <id> upper <unc> <ucr> <unr>
  Set all upper thresholds at the same time

С теорией закончили, переходим к практике.

ipmitool -I lanplus -H хост -U логин -P пароль sensor list | grep GPU

Видим четыре датчика температуры на GPU картах. У последнего верхние пороги такие: na, 86, 89. Это не совпадает с тремя другими картами, нужно установить na, 99, 104. Они идут в таком порядке:

  1. <unc> upper non-critical
  2. <ucr> upper critical
  3. <unr> upper non-recoverable

В <unc> мы не сможем воткнуть na, система не поймёт наших поползновений и ругнётся ошибкой. Поэтому в <unc> мы пишем то же самое, что и в <ucr>. В этом случае ipmitool видит одинаковые пограничные значения и лишнего просто не пишет.

ipmitool -I lanplus -H хост -U логин -P пароль sensor thresh "имя_сенсора" upper unc ucr unr

У меня:

ipmitool -I lanplus -H хост -U логин -P пароль sensor thresh "GPU5 Temp" upper 99 99 104

gpu

Вот и всё. Система приведена в стабильное состояние.

Теги

Цены

 

Похожие материалы

Zabbix шаблон для мониторинга сервера Supermicro X10DRi

Делюсь полезным шаблоном для мониторинга сервера Supermicro X10DRi.  Если быть более точным, то у сервера нет имени, у него материнка X10DRi-T и корпус 4 юнита. Только что собрал. В шаблоне 5 приложений, 53 элемента данных, 39 триггеров и 5 графиков. Мониторим по IPMI. 

Установка SFP+ адаптера в сервер Supermicro SYS-2029U-TN24R4T

Сервер Supermicro SYS-2029U-TN24R4T имеет 4 10G адаптера на борту, но они RJ45, что не всегда удобно. Установим дополнительную PCIe плату с SFP+ портами. 

Сервер Supermicro SYS-1029P-WTRT

Есть два подхода к выбору сервера. Можно выбрать сервер с учётом возможной расширяемости или роста определённого показателя: производительности, объёма оперативки или места на дисках. А можно выбрать сервер под определённую задачу. Первый способ более затратный, но с заделом на будущее. Второй — оптимальный по затратам, но почти без возможности роста.