Перейти к основному содержанию

Обслуживание сервера HPE Proliant DL360 Gen9

HP Proliant DL360 Gen9

Один из серверов HPE Proliant DL360 Gen9 при перезагрузке по питанию начал сыпать странными ошибками в лог.

Uncorrectable Machine Check Exception (Board 0, Processor 1, APIC ID 0x00000000, Bank 0x00000012, Status 0xBE200000'000C110A, Address 0x00000000'93000000, Misc 0x80FC3816'00402086)

Ошибка только на первом процессоре, причём не всегда. Дальше сервер загружается и даже работает. Но неприятно.

Ясно что проблема на стыке CPU1 - материнская плата - память. Действовать в этом случае нужно по простому плану.

  1. Разобрать, почистить, собрать. Т.е. провести обслуживание сервера.
  2. Если ошибка повторится, поменять процессоры местами.
  3. Если ошибка повторится на CPU2, то проблема в процессоре.
  4. Если ошибка повторится на CPU1, то поменять между процессорами память.
  5. Если ошибка повторится на CPU2, то искать сбойную память.
  6. Если ошибка повторится на CPU1, то проблема в материнской плате.

Начнём с первых двух пунктов, их можно совместить. Выполним обслуживание сервера и поменяем процессоры местами.

Выключаем сервер, снимаем кроссировки, отключаем питание, снимаем крышку, откручиваем радиаторы. Осматриваем процессор, смотрим как нанесена термопаста.

hpe

Снимаем термопасту. Я пользуюсь салфетками и спиртом. Это нужно для того, чтобы не пачкаться при снятии процессора.

hpe

Процессоры чистые, извлекаем их. Сразу чистим.

hpe

Доступны сокеты. Внимательно их осматриваем. Если кто-то уже проводил замену процессоров, то при их снятии старая термопаста могла попасть на контакты слота.

Нашёл маленький кусочек старой термопасты в сокете, выдул его. Сомневаюсь, что проблема была в нём, но мало ли...

hpe

Фонарик телефона поможет осмотреть контакты сокета. Иногда они могут быть погнуты. В моём случае повреждений я не заметил.

hpe

Устанавливаю на место процессоры. Естественно, при установке меняю их местами.

hpe

Наношу термопасту и устанавливаю радиаторы.

Как наносить термопасту?

Кстати, не затягивайте сильно винты. Еле смог открутить их при демонтаже. Сильная затяжка тоже может влиять на работу процессоров.

hpe

Дальше не особо интересно. Извлекаю память, чищу её и сами слоты. Точно так же поступаю со всеми PCIe адаптерами. Собираю сервер и включаю его.

Удивительно, но за месяц дальнейшей эксплуатации проблема с CPU больше не повторилась.

Чистим с нами,
чистим как мы,
чистим лучше нас! 

P.S.

Иногда и так моют:

Теги

Цены

 

Похожие материалы

Неоригинальные NVMe в сервере HPE Proliant DL360 Gen10

Есть у нас два сервера HPE ProLiant DL360 Gen10 с шасси 10 SFF. Шасси увеличенное, предназначено для установки NVMe дисков. Первоначальная комплектация была простой: два диска SAS HDD под систему и два NVMe 6.4 ТБ под программный RAID1 массив.

Два U.2 диска в сервере HPE Proliant DL360 Gen9

Сервер HPE Proliant DL360 Gen9 не предназначен для установки в него U.2 дисков. Однако, если воспользоваться специальным переходником "U.2 TO PCIe", то установить U.2 диск в сервер можно.

Теги

DIMM Failure — HPE Proliant Server

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок: POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory. POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system. POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Теги