Перейти к основному содержанию

DIMM Failure — HPE Proliant Server

RAM DIMM memory

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:

POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.

POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.

Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду: менять планки местами. В итоге вычислили проблемную планку. 

Итоговая картинка выглядела так:

hp

ILO видит все 24 планки. Некоторые помечены как degraded - верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.

Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули - в порядке.

Как диагностировать проблему:

  • В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора - подсуньте её второму процессору. Это позволит:
    • Просто "переткнуть" модули, что может исправить проблему.
    • Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась - попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках. 
  • Если есть запасная память - замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.

У меня под рукой оказался второй сервер - донор рабочей оперативки.

Первым делом заменил все подозрительные модули памяти на явно рабочие - сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку - сбойный модуль был найден.

Если у вас другая модификация сервера - смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача - тестировать планки в последнем используемом слоте. Вариантов диагностики много - главное, не верить бездумно сообщениям сервера, работайте руками и головой.

Вот он, корень зла:

hp

Теги

 

Похожие материалы

День, когда я менял диски... местами

Сегодня по плану я еду в ЦОД менять диски местами. Два NVMe диска в одном сервере поменяются местами с двумя дисками другого сервера, тип, брэнд и объёмы дисков одинаковые. Вы спросите зачем? Вот и я думал, что не придётся, а пришлось. Поехали.

Теги

Вышли из строя диски сразу в двух серверах

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало.