Перейти к основному содержанию

Обслуживание сервера HPE Proliant DL360 Gen9

HP Proliant DL360 Gen9

Один из серверов HPE Proliant DL360 Gen9 при перезагрузке по питанию начал сыпать странными ошибками в лог.

Uncorrectable Machine Check Exception (Board 0, Processor 1, APIC ID 0x00000000, Bank 0x00000012, Status 0xBE200000'000C110A, Address 0x00000000'93000000, Misc 0x80FC3816'00402086)

Ошибка только на первом процессоре, причём не всегда. Дальше сервер загружается и даже работает. Но неприятно.

Ясно что проблема на стыке CPU1 - материнская плата - память. Действовать в этом случае нужно по простому плану.

  1. Разобрать, почистить, собрать. Т.е. провести обслуживание сервера.
  2. Если ошибка повторится, поменять процессоры местами.
  3. Если ошибка повторится на CPU2, то проблема в процессоре.
  4. Если ошибка повторится на CPU1, то поменять между процессорами память.
  5. Если ошибка повторится на CPU2, то искать сбойную память.
  6. Если ошибка повторится на CPU1, то проблема в материнской плате.

Начнём с первых двух пунктов, их можно совместить. Выполним обслуживание сервера и поменяем процессоры местами.

Выключаем сервер, снимаем кроссировки, отключаем питание, снимаем крышку, откручиваем радиаторы. Осматриваем процессор, смотрим как нанесена термопаста.

hpe

Снимаем термопасту. Я пользуюсь салфетками и спиртом. Это нужно для того, чтобы не пачкаться при снятии процессора.

hpe

Процессоры чистые, извлекаем их. Сразу чистим.

hpe

Доступны сокеты. Внимательно их осматриваем. Если кто-то уже проводил замену процессоров, то при их снятии старая термопаста могла попасть на контакты слота.

Нашёл маленький кусочек старой термопасты в сокете, выдул его. Сомневаюсь, что проблема была в нём, но мало ли...

hpe

Фонарик телефона поможет осмотреть контакты сокета. Иногда они могут быть погнуты. В моём случае повреждений я не заметил.

hpe

Устанавливаю на место процессоры. Естественно, при установке меняю их местами.

hpe

Наношу термопасту и устанавливаю радиаторы.

Как наносить термопасту?

Кстати, не затягивайте сильно винты. Еле смог открутить их при демонтаже. Сильная затяжка тоже может влиять на работу процессоров.

hpe

Дальше не особо интересно. Извлекаю память, чищу её и сами слоты. Точно так же поступаю со всеми PCIe адаптерами. Собираю сервер и включаю его.

Удивительно, но за месяц дальнейшей эксплуатации проблема с CPU больше не повторилась.

Чистим с нами,
чистим как мы,
чистим лучше нас! 

P.S.

Иногда и так моют:

Теги

Цены

 

Похожие материалы