Перейти к основному содержанию

HP ProLiant DL360 Gen9 — Uncorrectable Machine Check Exception

HP Proliant DL360 Gen9

Похоже, одна поездка в ЦОД резко превратилась в несколько. И дополнительно подкинула проблем... HP ProLiant DL360 Gen9 выдал ошибку:

EVENT (29 Sep 14:00): Uncorrectable Machine Check Exception (Board 0, Processor 2, APIC ID 0x00000020, Bank 0x00000007, Status 0xB2000000'0200008F, Address 0x00000000'00000000, Misc 0x0000A000'40280000)

Не успел я понять в чём проблема, как сразу пришло второе сообщение:

EVENT (29 Sep 14:00): POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 10. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

Вот оно в чём дело. Итак, по порядку.

Жил был у меня сервер HP ProLiant DL360 Gen9, в который было воткнуто 16 планок DIMM по 16 ГБ каждая. И вот памяти стало не хватать. Докупили ещё 8 планок, благо слоты свободные были. Сервер забит под завязку.

huawei

При включении сервер показал 384 ГБ ОЗУ. Всё точно. 16 * 24 = 384.

hpe

На сервере крутится гипервизор ESXi 7. Пару дней сервер постоял без нагрузки, сегодня я решил ввести его в бой. Включил виртуальные машины и вдруг...

RAID контроллер выплёвывает ошибку, сервер уходит в перезагрузку, виртуальные машины останавливаются. После перезагрузки получаю указанные в начале поста ошибки. И вот это:

hpe

В десятом слоте память Degraded, а в 11 и 12 слоте не отображается вольтаж. Я сразу на это внимания не обратил, а зря. Запускаю встроенную диагностику памяти.

hpe

Мгновенная проверка памяти: УДАЧНО. Проверено 335 Гб. Стоп, почему 335?

16 * 24 = 384
384 - 335 = 49
49 / 16 ≈ 3

Три планки памяти не участвуют в проверке. Как я понимаю, это сбойная 10-я, 11-я и 12-я до кучи. Получается, сервер отключил всю память после сбойной. И на самом деле неясно, одна битая или две. Или три. Это, конечно, маловероятно, потому как порядок установки памяти такой, что 11-й и 12-й слоты используются раньше чем 10-й.

Завтра еду менять память.

Теги

Цены

 

Похожие материалы

Тестируем 10G SFP+ платы HP и Mellanox на серверах HP Proliant DL360 Gen9

Задача - проверить пропускную способность 10G сети между виртуальными машинами на разных гипервизорах.

Диски для HPE ProLiant MicroServer Gen10

Продолжаю в свободное время ковырять HPE ProLiant MicroServer Gen10. Сегодня мне пришли два HDD для него. Во-первых, проверим, что диски совместимы с сервером. Во вторых, соберём из в RAID 1 зеркало штатными средствами.

HPE Proliant DL360 Gen10 — установка U.2 NVMe дисков

Задача была простая, поехать в ЦОД, воткнуть два диска в сервер и уехать домой. Думал, управлюсь за пол часа, ага, щаззз. Два с половиной часа нервов, хорошо что всё хорошо закончилось.