Перейти к основному содержанию

DIMM Failure — HPE Proliant Server

RAM DIMM memory

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:

POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.

POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.

Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду: менять планки местами. В итоге вычислили проблемную планку. 

Итоговая картинка выглядела так:

hp

ILO видит все 24 планки. Некоторые помечены как degraded - верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.

Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули - в порядке.

Как диагностировать проблему:

  • В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора - подсуньте её второму процессору. Это позволит:
    • Просто "переткнуть" модули, что может исправить проблему.
    • Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась - попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках. 
  • Если есть запасная память - замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.

У меня под рукой оказался второй сервер - донор рабочей оперативки.

Первым делом заменил все подозрительные модули памяти на явно рабочие - сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку - сбойный модуль был найден.

Если у вас другая модификация сервера - смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача - тестировать планки в последнем используемом слоте. Вариантов диагностики много - главное, не верить бездумно сообщениям сервера, работайте руками и головой.

Вот он, корень зла:

hp

Теги

 

Похожие материалы

Замена диска в HP MSA 2040

В СХД HP MSA 2040 начал выходить из строя диск. Он пока не отметился как failed, но практически каждый день на нём стали происходить ошибки вида: .1.3.6.1.4.1.11.2.51.0.3001 Normal "General event" 10.10.10.12 - 3878 3 Event type: 58, An event was reported by a disk drive. (disk: channel: 0, ID: 1, SN: XXXXXXXX, enclosure: 1, slot: 2) (Key,Code,Qual,UEC:0xB,0x11,0x3,0x0000) (CDB:Rd 27212000 0800)(Info:0x272125AA)(CmdSpc:0x0, FRU:0x42, SnsKeySpc:0x0)(Aborted Command, multiple read errors)

HPE ProLiant MicroServer Gen10 — пятый SATA диск

Выделил денег на отдельный пятый SATA диск для сервера HPE ProLiant MicroServer Gen10. Диск будет использоваться под систему. Форм-фактор пятого диска 2.5. Выбор пал на модель — WD10JFCX.

Теги

HPE ProLiant DL360 Gen9 — RAID 5 из неоригинальных SSD 15ТБ

При покупке неоригинальных дисков для серверов HPE всегда есть риск того, что диски не заработают, или RAID контроллер их не увидит, или заработают, но не так как планировалось, или кулеры включатся на 100%, или случится ещё какая-нибудь неизведанная ерунда.