Перейти к основному содержанию

DIMM Failure — HPE Proliant Server

RAM DIMM memory

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:

POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.

POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.

Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду: менять планки местами. В итоге вычислили проблемную планку. 

Итоговая картинка выглядела так:

hp

ILO видит все 24 планки. Некоторые помечены как degraded - верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.

Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули - в порядке.

Как диагностировать проблему:

  • В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора - подсуньте её второму процессору. Это позволит:
    • Просто "переткнуть" модули, что может исправить проблему.
    • Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась - попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках. 
  • Если есть запасная память - замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.

У меня под рукой оказался второй сервер - донор рабочей оперативки.

Первым делом заменил все подозрительные модули памяти на явно рабочие - сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку - сбойный модуль был найден.

Если у вас другая модификация сервера - смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача - тестировать планки в последнем используемом слоте. Вариантов диагностики много - главное, не верить бездумно сообщениям сервера, работайте руками и головой.

Вот он, корень зла:

hp

Теги

 

Похожие материалы

HPE ProLiant DL360 Gen9 — RAID 5 из неоригинальных SSD 15ТБ

При покупке неоригинальных дисков для серверов HPE всегда есть риск того, что диски не заработают, или RAID контроллер их не увидит, или заработают, но не так как планировалось, или кулеры включатся на 100%, или случится ещё какая-нибудь неизведанная ерунда.

Установка PCIe NVMe SSD диска в сервер HPE ProLiant DL360 Gen9

Поступила задача — установить в сервер HPE ProLiant DL360 Gen9 два SSD NVMe диска. Диски представляют собой PCIe платы HHHL формата, комплектуются низкопрофильными планками, поэтому должны влезть. В HPE ProLiant DL360 Gen9 можно воткнуть две низкопрофильные PCIe платы и одну полнопрофильную.

Теги

HP Proliant DL 120 Gen9 — установка платы Mellanox

Устанавливаем 10 GB плату Mellanox ConnectX-4 LX CX4121A в сервер HP Proliant DL 120 Gen9. На плате два порта SFP+, интерфейс PCIe3.0 x8. В комплекте к плате идёт низкопрофильная планка, она нам не понадобится, т.к. в сервереHP Proliant DL 120 Gen9 есть свободный полнопрофильный PCI слот.