
На сервере Dell PowerEdge R640 поймали ошибку. Сервер покраснел, iDRAC семафорит об ошибке, в логах нечто такое:
Correctable memory error logging disabled for a memory device at location DIMM_A4.
Correctable Machine Check Exception detected on CPU 1.

Ну, посмотрел я на эту ошибку, рестартанул iDRAC, чтобы ошибка ушла. Запланировал диагностику памяти и замену в отдалённом будущем.
Только я расслабился, сервер ушёл в перезагрузку.

Multi-bit memory errors are detected on the memory device at location(s) DIMM_A4. Immediately replace the DIMM.
CPU 1 machine check error detected.
А потом снова в перезагрузку. И ещё раз в перезагрузку. Затем запустился, поработал две минуты, и снова в перезагрузку.
Ой как не хочется в ЦОД ехать среди ночи. В сервере 8 планок памяти по 32 ГБ, можно было бы отключить одну, сервер бы какое-то время поработал без неё. Но выборочно DIMM слот у этого сервера отключить нельзя.
Однако, ехать в ЦОД всё равно не хочется. Делаем ход конём. 🐴
Убеждаемся что с памятью всё плохо. Перезагружаем сервер, входим (F10) при загрузке в Lifecycle Controller. Делаем диагностику: Hardware Diagnostics.

Убеждаемся что память вышла из строя. Диагностика это показывает. На планке было много ошибок памяти и коррекция была отключена. При каждой последующей ошибке памяти сервер будет перезагружаться, особенно под нагрузкой.

Перезагружаем сервер, заходим в BIOS, F2. System BIOS → Memory Settings. И включаем для памяти режим Mirror Mode. В этом режиме память работает как RAID 1, сервер автоматически отключит сбойный модуль памяти, если он снова начнёт сыпать ошибками.

Отложили поездку в ЦОД до лучших времён, пока память не закупят. Заработали себе спокойную ночь. Но есть минус — на сервере теперь вдвое меньше памяти, следует это учитывать.

Ошибки сыпятся, но сервер теперь не перезагружается.