Перейти к основному содержанию

HP ProLiant DL360 Gen9 — Uncorrectable Machine Check Exception

HP Proliant DL360 Gen9

Похоже, одна поездка в ЦОД резко превратилась в несколько. И дополнительно подкинула проблем... HP ProLiant DL360 Gen9 выдал ошибку:

EVENT (29 Sep 14:00): Uncorrectable Machine Check Exception (Board 0, Processor 2, APIC ID 0x00000020, Bank 0x00000007, Status 0xB2000000'0200008F, Address 0x00000000'00000000, Misc 0x0000A000'40280000)

Не успел я понять в чём проблема, как сразу пришло второе сообщение:

EVENT (29 Sep 14:00): POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 10. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

Вот оно в чём дело. Итак, по порядку.

Жил был у меня сервер HP ProLiant DL360 Gen9, в который было воткнуто 16 планок DIMM по 16 ГБ каждая. И вот памяти стало не хватать. Докупили ещё 8 планок, благо слоты свободные были. Сервер забит под завязку.

huawei

При включении сервер показал 384 ГБ ОЗУ. Всё точно. 16 * 24 = 384.

hpe

На сервере крутится гипервизор ESXi 7. Пару дней сервер постоял без нагрузки, сегодня я решил ввести его в бой. Включил виртуальные машины и вдруг...

RAID контроллер выплёвывает ошибку, сервер уходит в перезагрузку, виртуальные машины останавливаются. После перезагрузки получаю указанные в начале поста ошибки. И вот это:

hpe

В десятом слоте память Degraded, а в 11 и 12 слоте не отображается вольтаж. Я сразу на это внимания не обратил, а зря. Запускаю встроенную диагностику памяти.

hpe

Мгновенная проверка памяти: УДАЧНО. Проверено 335 Гб. Стоп, почему 335?

16 * 24 = 384
384 - 335 = 49
49 / 16 ≈ 3

Три планки памяти не участвуют в проверке. Как я понимаю, это сбойная 10-я, 11-я и 12-я до кучи. Получается, сервер отключил всю память после сбойной. И на самом деле неясно, одна битая или две. Или три. Это, конечно, маловероятно, потому как порядок установки памяти такой, что 11-й и 12-й слоты используются раньше чем 10-й.

Завтра еду менять память.

Теги

Цены

 

Похожие материалы

Замена диска в HP MSA 2040

В СХД HP MSA 2040 начал выходить из строя диск. Он пока не отметился как failed, но практически каждый день на нём стали происходить ошибки вида: .1.3.6.1.4.1.11.2.51.0.3001 Normal "General event" 10.10.10.12 - 3878 3 Event type: 58, An event was reported by a disk drive. (disk: channel: 0, ID: 1, SN: XXXXXXXX, enclosure: 1, slot: 2) (Key,Code,Qual,UEC:0xB,0x11,0x3,0x0000) (CDB:Rd 27212000 0800)(Info:0x272125AA)(CmdSpc:0x0, FRU:0x42, SnsKeySpc:0x0)(Aborted Command, multiple read errors)

HPE Proliant DL360 Gen10 — описание и фото

HPE Proliant DL360 Gen10 — безопасный высокопроизводительный компактный сервер в корпусе 1U отличается высокой вычислительной мощностью благодаря использованию в Gen10 поколении новых процессоров семейства Intel Xeon Scalable и высокочастотной памяти DDR4-2666. Идеально подходит для виртуализации, работы с базами данных. Автоматизация важных задач управления жизненным циклом сервера с помощью решений HPE OneView и HPE iLO 5 упрощает процессы развертывания, обновления, мониторинга и обслуживания. 

HPE ProLiant DL360 Gen9 — обзор

Эффективный сервер HPE ProLiant DL360 Gen9, подходящий для виртуализации, баз данных и высокопроизводительных вычислений. Сервер поставляется в корпусе высотой 1U с одним или двумя процессорами. Отличается высокой производительностью, низким уровнем энергопотребления, увеличенным временем бесперебойной работы и повышенной плотностью.