Перейти к основному содержанию

Обслуживание сервера HPE Proliant DL360 Gen9

HP Proliant DL360 Gen9

Один из серверов HPE Proliant DL360 Gen9 при перезагрузке по питанию начал сыпать странными ошибками в лог.

Uncorrectable Machine Check Exception (Board 0, Processor 1, APIC ID 0x00000000, Bank 0x00000012, Status 0xBE200000'000C110A, Address 0x00000000'93000000, Misc 0x80FC3816'00402086)

Ошибка только на первом процессоре, причём не всегда. Дальше сервер загружается и даже работает. Но неприятно.

Ясно что проблема на стыке CPU1 - материнская плата - память. Действовать в этом случае нужно по простому плану.

  1. Разобрать, почистить, собрать. Т.е. провести обслуживание сервера.
  2. Если ошибка повторится, поменять процессоры местами.
  3. Если ошибка повторится на CPU2, то проблема в процессоре.
  4. Если ошибка повторится на CPU1, то поменять между процессорами память.
  5. Если ошибка повторится на CPU2, то искать сбойную память.
  6. Если ошибка повторится на CPU1, то проблема в материнской плате.

Начнём с первых двух пунктов, их можно совместить. Выполним обслуживание сервера и поменяем процессоры местами.

Выключаем сервер, снимаем кроссировки, отключаем питание, снимаем крышку, откручиваем радиаторы. Осматриваем процессор, смотрим как нанесена термопаста.

hpe

Снимаем термопасту. Я пользуюсь салфетками и спиртом. Это нужно для того, чтобы не пачкаться при снятии процессора.

hpe

Процессоры чистые, извлекаем их. Сразу чистим.

hpe

Доступны сокеты. Внимательно их осматриваем. Если кто-то уже проводил замену процессоров, то при их снятии старая термопаста могла попасть на контакты слота.

Нашёл маленький кусочек старой термопасты в сокете, выдул его. Сомневаюсь, что проблема была в нём, но мало ли...

hpe

Фонарик телефона поможет осмотреть контакты сокета. Иногда они могут быть погнуты. В моём случае повреждений я не заметил.

hpe

Устанавливаю на место процессоры. Естественно, при установке меняю их местами.

hpe

Наношу термопасту и устанавливаю радиаторы.

Как наносить термопасту?

Кстати, не затягивайте сильно винты. Еле смог открутить их при демонтаже. Сильная затяжка тоже может влиять на работу процессоров.

hpe

Дальше не особо интересно. Извлекаю память, чищу её и сами слоты. Точно так же поступаю со всеми PCIe адаптерами. Собираю сервер и включаю его.

Удивительно, но за месяц дальнейшей эксплуатации проблема с CPU больше не повторилась.

Чистим с нами,
чистим как мы,
чистим лучше нас! 

P.S.

Иногда и так моют:

Теги

Цены

 

Похожие материалы

День, когда я менял диски

Сегодня не самый обычный пост, я еду в ЦОД менять и устанавливать диски. Любопытно, что все диски разные, оборудование тоже разное. Для мониторинга состояния дисков потребуется самые разные инструменты. Вроде бы всего 4 диска, а подходы самые разные. Поехали.

HPE ProLiant MicroServer Gen10 — пятый SATA диск

Выделил денег на отдельный пятый SATA диск для сервера HPE ProLiant MicroServer Gen10. Диск будет использоваться под систему. Форм-фактор пятого диска 2.5. Выбор пал на модель — WD10JFCX.

Теги

Замена батарейки в HP Proliant DL360 Gen9

Не знаю почему, но батарейки в серверах HP Proliant DL360 Gen9 дохнут одна за одной, уже с десяток заменили. Возможно, партия такая была, не берусь судить. Новые батарейки пока работают без проблем. Вашему вниманию предлагается мини-инструкция по замене батарейки.

Теги