Ночью словили ошибку на сервере Dell PowerEdge R640:
Multi-bit memory errors detected on a memory device at location(s) DIMM_B4.
Полный лог ошибок:
Multi-bit memory errors detected on a memory device at location(s) DIMM_B4. (много)
An OEM diagnostic event occurred. (много)
CPU 2 machine check error detected.
CPU 1 machine check error detected.
Пре этом сервер ушёл в перезагрузку. И отчитался:
The self-heal operation successfully completed at DIMM DIMM_B4.
На почту пришли уведомления:
Event Message: Multi-bit memory errors detected on a memory device at location(s) DIMM_B4. Date/Time: Wed, 12 Apr 2023 00:47:57 +0300 Severity: Critical Detailed Description: The memory has encountered a uncorrectable error. System performance may be degraded. The operating system and/or applications may fail as a result. Recommended Action: Re-install the memory component. If the problem persists, contact technical support. Refer to the product documentation to choose a convenient contact method. Message ID: MEM0001 System Model: PowerEdge R640
И следом:
Event Message: The system memory has faced an uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location DIMM_B4. Date/Time: Wed, 12 Apr 2023 00:47:58 +0300 Severity: Critical Detailed Description: The system memory has faced an uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location identified in the message. The system performance may be degraded and the operating system and/or application(s) may stop responding. Recommended Action: Reinstall the memory device. If the issue persists, contact your service provider. To select a convenient contact method, see the product documentation available on the support site. Message ID: MEM9072 System Model: PowerEdge R640
И от процессоров тоже прилетели сообщения:
Event Message: CPU 1 machine check error detected. Date/Time: Wed, 12 Apr 2023 00:48:22 +0300 Severity: Critical Detailed Description: System event log and OS logs may indicate that the exception is external to the processor. Recommended Action: 1) Check system and operating system logs for exceptions. If no exceptions are found continue. 2) Turn system off and remove input power for one minute. Re-apply input power and turn system on. 3) Make sure the processor is seated correctly. 4) If the issue still persists, contact technical support. Refer to the product documentation to choose a convenient contact method. Message ID: CPU0704 System Model: PowerEdge R640
Но в нашем случае ошибка от процессора — это следствие, а не причина.
Что делать?
Для себя я составил следующий план действий:
- Если сервер на гарантии, обращаемся в поддержку и меняем планку памяти.
- Если сервер не на гарантии, записываем идентификатор и номер планки памяти, на которой наблюдалась проблема.
- Если проблема повторится, то обновляем iDRAC.
- Если проблема повторится, то выключаем сервер, перетыкаем планку памяти, чистим контакты.
- Если проблема повторится, то меняем планку памяти местами с другой.
- Если проблема повторится на той же планке памяти, то меняем планку памяти на новую.
- Если проблема повторится на другой планке памяти и на том же слоте, то хорошо чистим контакты слота.
- Если проблема повторится, то меняем процессоры местами.
- Если проблема повторится на том же процессоре, то меняем процессор.
- Если проблема повторится на том же слоте памяти, то меняем материнскую плату.