Один из серверов HPE Proliant DL360 Gen9 при перезагрузке по питанию начал сыпать странными ошибками в лог.
Uncorrectable Machine Check Exception (Board 0, Processor 1, APIC ID 0x00000000, Bank 0x00000012, Status 0xBE200000'000C110A, Address 0x00000000'93000000, Misc 0x80FC3816'00402086)
Ошибка только на первом процессоре, причём не всегда. Дальше сервер загружается и даже работает. Но неприятно.
Ясно что проблема на стыке CPU1 - материнская плата - память. Действовать в этом случае нужно по простому плану.
- Разобрать, почистить, собрать. Т.е. провести обслуживание сервера.
- Если ошибка повторится, поменять процессоры местами.
- Если ошибка повторится на CPU2, то проблема в процессоре.
- Если ошибка повторится на CPU1, то поменять между процессорами память.
- Если ошибка повторится на CPU2, то искать сбойную память.
- Если ошибка повторится на CPU1, то проблема в материнской плате.
Начнём с первых двух пунктов, их можно совместить. Выполним обслуживание сервера и поменяем процессоры местами.
Выключаем сервер, снимаем кроссировки, отключаем питание, снимаем крышку, откручиваем радиаторы. Осматриваем процессор, смотрим как нанесена термопаста.
Снимаем термопасту. Я пользуюсь салфетками и спиртом. Это нужно для того, чтобы не пачкаться при снятии процессора.
Процессоры чистые, извлекаем их. Сразу чистим.
Доступны сокеты. Внимательно их осматриваем. Если кто-то уже проводил замену процессоров, то при их снятии старая термопаста могла попасть на контакты слота.
Нашёл маленький кусочек старой термопасты в сокете, выдул его. Сомневаюсь, что проблема была в нём, но мало ли...
Фонарик телефона поможет осмотреть контакты сокета. Иногда они могут быть погнуты. В моём случае повреждений я не заметил.
Устанавливаю на место процессоры. Естественно, при установке меняю их местами.
Наношу термопасту и устанавливаю радиаторы.
Кстати, не затягивайте сильно винты. Еле смог открутить их при демонтаже. Сильная затяжка тоже может влиять на работу процессоров.
Дальше не особо интересно. Извлекаю память, чищу её и сами слоты. Точно так же поступаю со всеми PCIe адаптерами. Собираю сервер и включаю его.
Удивительно, но за месяц дальнейшей эксплуатации проблема с CPU больше не повторилась.
Чистим с нами,
чистим как мы,
чистим лучше нас!
P.S.
Иногда и так моют: