Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:
POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.
POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.
POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.
Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.
Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду: менять планки местами. В итоге вычислили проблемную планку.
Итоговая картинка выглядела так:
ILO видит все 24 планки. Некоторые помечены как degraded - верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.
Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули - в порядке.
Как диагностировать проблему:
- В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора - подсуньте её второму процессору. Это позволит:
- Просто "переткнуть" модули, что может исправить проблему.
- Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась - попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках.
- Если есть запасная память - замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.
У меня под рукой оказался второй сервер - донор рабочей оперативки.
Первым делом заменил все подозрительные модули памяти на явно рабочие - сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку - сбойный модуль был найден.
Если у вас другая модификация сервера - смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача - тестировать планки в последнем используемом слоте. Вариантов диагностики много - главное, не верить бездумно сообщениям сервера, работайте руками и головой.
Вот он, корень зла: