Перейти к основному содержанию

HP ProLiant DL360 Gen9 — Uncorrectable Machine Check Exception

HP Proliant DL360 Gen9

Похоже, одна поездка в ЦОД резко превратилась в несколько. И дополнительно подкинула проблем... HP ProLiant DL360 Gen9 выдал ошибку:

EVENT (29 Sep 14:00): Uncorrectable Machine Check Exception (Board 0, Processor 2, APIC ID 0x00000020, Bank 0x00000007, Status 0xB2000000'0200008F, Address 0x00000000'00000000, Misc 0x0000A000'40280000)

Не успел я понять в чём проблема, как сразу пришло второе сообщение:

EVENT (29 Sep 14:00): POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 10. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

Вот оно в чём дело. Итак, по порядку.

Жил был у меня сервер HP ProLiant DL360 Gen9, в который было воткнуто 16 планок DIMM по 16 ГБ каждая. И вот памяти стало не хватать. Докупили ещё 8 планок, благо слоты свободные были. Сервер забит под завязку.

huawei

При включении сервер показал 384 ГБ ОЗУ. Всё точно. 16 * 24 = 384.

hpe

На сервере крутится гипервизор ESXi 7. Пару дней сервер постоял без нагрузки, сегодня я решил ввести его в бой. Включил виртуальные машины и вдруг...

RAID контроллер выплёвывает ошибку, сервер уходит в перезагрузку, виртуальные машины останавливаются. После перезагрузки получаю указанные в начале поста ошибки. И вот это:

hpe

В десятом слоте память Degraded, а в 11 и 12 слоте не отображается вольтаж. Я сразу на это внимания не обратил, а зря. Запускаю встроенную диагностику памяти.

hpe

Мгновенная проверка памяти: УДАЧНО. Проверено 335 Гб. Стоп, почему 335?

16 * 24 = 384
384 - 335 = 49
49 / 16 ≈ 3

Три планки памяти не участвуют в проверке. Как я понимаю, это сбойная 10-я, 11-я и 12-я до кучи. Получается, сервер отключил всю память после сбойной. И на самом деле неясно, одна битая или две. Или три. Это, конечно, маловероятно, потому как порядок установки памяти такой, что 11-й и 12-й слоты используются раньше чем 10-й.

Завтра еду менять память.

Теги

Цены

 

Похожие материалы

Вышли из строя диски сразу в двух серверах

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало.

Сервер HPE Proliant DL380 Gen10 — обзор

Сервер HPE ProLiant DL380 Gen10 обеспечивает максимальную безопасность, производительность и возможности расширения. Сервер предназначен для сокращения расходов и упрощения работы.

Установка PCIe NVMe SSD диска в сервер HPE ProLiant DL360 Gen9

Поступила задача — установить в сервер HPE ProLiant DL360 Gen9 два SSD NVMe диска. Диски представляют собой PCIe платы HHHL формата, комплектуются низкопрофильными планками, поэтому должны влезть. В HPE ProLiant DL360 Gen9 можно воткнуть две низкопрофильные PCIe платы и одну полнопрофильную.

Теги