Перейти к основному содержанию

Обслуживание сервера HPE Proliant DL360 Gen9

HP Proliant DL360 Gen9

Один из серверов HPE Proliant DL360 Gen9 при перезагрузке по питанию начал сыпать странными ошибками в лог.

Uncorrectable Machine Check Exception (Board 0, Processor 1, APIC ID 0x00000000, Bank 0x00000012, Status 0xBE200000'000C110A, Address 0x00000000'93000000, Misc 0x80FC3816'00402086)

Ошибка только на первом процессоре, причём не всегда. Дальше сервер загружается и даже работает. Но неприятно.

Ясно что проблема на стыке CPU1 - материнская плата - память. Действовать в этом случае нужно по простому плану.

  1. Разобрать, почистить, собрать. Т.е. провести обслуживание сервера.
  2. Если ошибка повторится, поменять процессоры местами.
  3. Если ошибка повторится на CPU2, то проблема в процессоре.
  4. Если ошибка повторится на CPU1, то поменять между процессорами память.
  5. Если ошибка повторится на CPU2, то искать сбойную память.
  6. Если ошибка повторится на CPU1, то проблема в материнской плате.

Начнём с первых двух пунктов, их можно совместить. Выполним обслуживание сервера и поменяем процессоры местами.

Выключаем сервер, снимаем кроссировки, отключаем питание, снимаем крышку, откручиваем радиаторы. Осматриваем процессор, смотрим как нанесена термопаста.

hpe

Снимаем термопасту. Я пользуюсь салфетками и спиртом. Это нужно для того, чтобы не пачкаться при снятии процессора.

hpe

Процессоры чистые, извлекаем их. Сразу чистим.

hpe

Доступны сокеты. Внимательно их осматриваем. Если кто-то уже проводил замену процессоров, то при их снятии старая термопаста могла попасть на контакты слота.

Нашёл маленький кусочек старой термопасты в сокете, выдул его. Сомневаюсь, что проблема была в нём, но мало ли...

hpe

Фонарик телефона поможет осмотреть контакты сокета. Иногда они могут быть погнуты. В моём случае повреждений я не заметил.

hpe

Устанавливаю на место процессоры. Естественно, при установке меняю их местами.

hpe

Наношу термопасту и устанавливаю радиаторы.

Как наносить термопасту?

Кстати, не затягивайте сильно винты. Еле смог открутить их при демонтаже. Сильная затяжка тоже может влиять на работу процессоров.

hpe

Дальше не особо интересно. Извлекаю память, чищу её и сами слоты. Точно так же поступаю со всеми PCIe адаптерами. Собираю сервер и включаю его.

Удивительно, но за месяц дальнейшей эксплуатации проблема с CPU больше не повторилась.

Чистим с нами,
чистим как мы,
чистим лучше нас! 

P.S.

Иногда и так моют:

Теги

Цены

 

Похожие материалы

Сервер HPE Proliant DL380 Gen10 — обзор

Сервер HPE ProLiant DL380 Gen10 обеспечивает максимальную безопасность, производительность и возможности расширения. Сервер предназначен для сокращения расходов и упрощения работы.

Установка PCIe NVMe SSD диска в сервер HPE ProLiant DL360 Gen9

Поступила задача — установить в сервер HPE ProLiant DL360 Gen9 два SSD NVMe диска. Диски представляют собой PCIe платы HHHL формата, комплектуются низкопрофильными планками, поэтому должны влезть. В HPE ProLiant DL360 Gen9 можно воткнуть две низкопрофильные PCIe платы и одну полнопрофильную.

Теги

Вышли из строя диски сразу в двух серверах

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало.