Перейти к основному содержанию

Dell — Correctable memory error logging disabled for a memory device

Dell iDRAC 9

На сервере Dell PowerEdge R640 поймали ошибку. Сервер покраснел, iDRAC семафорит об ошибке, в логах нечто такое:

Correctable memory error logging disabled for a memory device at location DIMM_A4.
Correctable Machine Check Exception detected on CPU 1.
dell

Ну, посмотрел я на эту ошибку, рестартанул iDRAC, чтобы ошибка ушла. Запланировал диагностику памяти и замену в отдалённом будущем.

Только я расслабился, сервер ушёл в перезагрузку.

dell
Multi-bit memory errors are detected on the memory device at location(s) DIMM_A4. Immediately replace the DIMM.
CPU 1 machine check error detected.

А потом снова в перезагрузку. И ещё раз в перезагрузку. Затем запустился, поработал две минуты, и снова в перезагрузку.

Ой как не хочется в ЦОД ехать среди ночи. В сервере 8 планок памяти по 32 ГБ, можно было бы отключить одну, сервер бы какое-то время поработал без неё. Но выборочно DIMM слот у этого сервера отключить нельзя.

Однако, ехать в ЦОД всё равно не хочется. Делаем ход конём. 🐴

Убеждаемся что с памятью всё плохо. Перезагружаем сервер, входим (F10) при загрузке в Lifecycle Controller. Делаем диагностику: Hardware Diagnostics.

dell

Убеждаемся что память вышла из строя. Диагностика это показывает. На планке было много ошибок памяти и коррекция была отключена. При каждой последующей ошибке памяти сервер будет перезагружаться, особенно под нагрузкой. 

dell

Перезагружаем сервер, заходим в BIOS, F2. System BIOS → Memory Settings. И включаем для памяти режим Mirror Mode. В этом режиме память работает как RAID 1, сервер автоматически отключит сбойный модуль памяти, если он снова начнёт сыпать ошибками.

dell

Отложили поездку в ЦОД до лучших времён, пока память не закупят. Заработали себе спокойную ночь. Но есть минус — на сервере теперь вдвое меньше памяти, следует это учитывать.

dell

Ошибки сыпятся, но сервер теперь не перезагружается.

Теги

Цены

 

Похожие материалы

Dell — настраиваем RAID5 на сервере PowerEdge R740xd2

Имеется сервер Dell PowerEdge R740xd2, в котором установлено 24 HDD диска объёмом 12 ТБ в первой и второй корзине. Два дополнительных диска установлены в третьей корзине, на них уже настроен RAID1 под систему.

Теги

Dell — ускоряем реконструкцию массива

В июле я добавил новые диски в сервер Dell PowerEdge R740xd2 и запустил процедуру расширения RAID6 массива. Всё хорошо, вот только массив до сих пор расширяется. Не нравится мне это, будем ускорять реконструкцию массива.

Теги