Случилась у меня тут такая история с перегревом процессора на сервере HP ProLiant DL360 Gen9. Сервер никаких сообщений ошибок не выдавал, предупреждений не высылал. Но в один прекрасный момент я заметил, что вентиляторы на нём шумят сильнее чем на других серверах. Это Ж-Ж-Ж не спроста.
Заглянул я в iLO и вижу такую картину:
Все сенсоры в норме, но температуры процессоров сильно отличаются! На первом 46 °C, на втором 59 °C. Разница в 13 градусов. При этом нагрузка на процы должна распределяться равномерно, потому что сервер выполняет функция гипервизора и там всё настроено по умолчанию.
Получается, второй процессор греется сильнее. Сервер врубает вентиляторы и снижает его температуру до 60 градусов, при этом первый процессор охлаждается сильнее.
Умная мысль пришла, пока статью писал: а не сделать ли мне триггер в системе мониторинга, который бы отслеживал сильную разницу в температуре процессоров на серверах? Это позволит находить проблемы раньше, чем станет совсем плохо... Нужно сделать.
Я посмотрел по логам мониторинга, оказалось, что скорость работы вентиляторов и потребление питание увеличилось после того, как я разбирал сервер для установки сетевой карты. Возможно, я зацепил радиатор и сдвинул слой термопасты. Сервер старый, термопаста уже давно затвердела, могла образоваться трещина от удара или просто от быстрой смены температур при резком охлаждении.
Давайте для начала заменим термопасту на греющемся процессоре.
Выключаю сервер, снимаю крышку.
Второй процессор слева.
Снимаю радиатор, понадобится отвёртка-торкс, плоская тоже подойдёт.
Радиатор крепится четырьмя винтами.
Снимаю радиатор. Если собираетесь снять радиатор, то сразу запасайтесь термопастой. К примеру, у серверов Dell радиатор снимается вместе с процессором, поэтому процессоры можно менять местами без термопасты. Здесь же такой фокус не пройдёт.
Термопаста была не очень хорошо нанесена. Она покрывает весь процессор, но её слишком много. Паста выдавилась в стороны и сейчас раскрошилась. Придётся пинцетом аккуратно всё вычищать. Пылесоса нет под рукой, жаль.
На радиаторе та же картина. Но чистить его удобнее.
Вычищаем старую термопасту. Я пользуюсь пинцетом и бумажными салфетками. Даже перевернул сервер и вытряхнул куски сухой термопасты с материнской платы (не делайте так).
Процессор как новенький. Извлёк его и убедился что на контакты ничего не попало.
Устанавливаю процессор в слот. Много ума не нужно, всё написано.
Радиатор тоже чистый.
Сегодня я использую термопасту ZM-STG2. Брал два разных тюбика, но тюбик с КПТ-8 оказался старым, а паста суховатой.
Выдавливаю каплю пасты на процессор и размазываю пальцем по всей поверхности.
Устанавливаю радиатор.
Собираю сервер, включаю и проверяю, что оба процессора определяются и работают.
Даю нагрузку на сервер. Сервер должен поработать некоторое время. Я поехал в офис, за столом удобнее работать.
Смотрим в iLO:
Оба процессора теперь греются одинаково. Температура около 60 °C.
А вот так изменилась работа вентиляторов. До замены термопасты вентиляторы крутились на 60% скорости. После замены термопасты скорость работы вентиляторов — 20%.
Проблема с перегревом процессора решена.