Перейти к основному содержанию

HP ProLiant DL360 Gen9 — Memory initialization error

HP Proliant DL360 Gen9

Продолжение эпопеи с ошибками памяти на сервере HP ProLiant DL360 Gen9. Только что вернулся из ЦОД, задача по расширению памяти сервера всё ещё не выполнена.

Напоминаю, что в старый сервер HP ProLiant DL360 Gen9 было дополнительно воткнуто 8 планок DIMM по 16 ГБ каждая. После этого мы словили ошибку и вычислили сбойную память в 10 слоте второго процессора.

HP ProLiant DL360 Gen9 — Uncorrectable Machine Check Exception

Сервер отключил битую планку памяти, и ещё две вместе с ней, которые висели на том же канале. Ясно было, что планку нужно менять. Поскольку мы планировали расширять память на нескольких серверах, то памяти купили много, запасные планки есть. Вот я и поехал, а перед поездкой взял с собой все новые планки, чтобы их тоже проверить. А если вся партия битая, возможно, там ещё есть нерабочие планки? Редкость, конечно... Но беру всё.

hpe

Дубль два

Приезжаю в ЦОД, открываю сервер. Нахожу десятый слот второго процессора, благо все слоты подписаны на материнке. И на крышке схема есть.

hpe

Битую планку извлекаю, сразу наклеиваю на неё наклейку и помечаю DEF — defective. Вместо неё ставлю новую планку. Затем извлекаю все 16 планок, которые в сервере стояли изначально. Они явно рабочие, откладываю в сторонку.

hpe

Все пустые слоты забиваю новыми планками. Нужно же мне проверить эту партию.

hpe

Вся память не влезла. Нужно будет потом её тоже проверить. Собираем сервер обратно и включаем.

Бах:

EVENT (30 Sep 13:21): POST Error: 207-Memory initialization error on Processor 1, DIMM 12. The operating system may not have access to all of the memory installed in the system.

Бах:

EVENT (30 Sep 16:21): POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 1, DIMM 12. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

hpe

Теперь уже первый процессор, 12 слот.

hpe

Вот так бывает. В закупленной партии уже две битые планки. Ошибка точно такая же. Сервер также отключил битую планку и две на том же канале. Зато на втором процессоре теперь полный рабочий комплект.

Извлекаю вторую битую планку, меняю на новую.

hpe

В итоге я не поленился, проверил все планки, которые взял с собой. К счастью, в партии оказалось только две неисправных планки памяти. Но это не точно. Потому что в первый раз сервер тоже показал что всё нормально, а потом память отвалилась под нагрузкой.

Запускаю встроенную диагностическую утилиту.

hpe

Запускаю мгновенную проверку памяти.

hpe

Утилита пишет, что мгновенная проверка памяти выполняется за 3 минуты, не верьте ей. У меня ушло минут 15. В итоге: Мгновенная проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Перед уходом запускаю быструю проверку памяти.

hpe

Утилита пишет, что быстрая проверка памяти выполняется за 10 минут, не верьте ей. Прошло два с половиной часа...

hpe

Выполнено 13%. Если прикинуть, то быстрая проверка займёт 1154 минуты. Сутки. А ведь есть ещё полная проверка, не стану её запускать. Оставляю утилиту работать, завтра попытаюсь запустить сервер в бой, если память не накроется...

Делаем вывод:

Если у вас есть возможность проверить закупленное оборудование, то сделайте это.

Прошло 24 часа... 

hpe

Быстрая проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Теги

Цены

 

Похожие материалы

HPE ProLiant DL360 Gen9 — RAID 5 из неоригинальных SSD 15ТБ

При покупке неоригинальных дисков для серверов HPE всегда есть риск того, что диски не заработают, или RAID контроллер их не увидит, или заработают, но не так как планировалось, или кулеры включатся на 100%, или случится ещё какая-нибудь неизведанная ерунда.

HPE ProLiant MicroServer Gen10 — пятый SATA диск

Выделил денег на отдельный пятый SATA диск для сервера HPE ProLiant MicroServer Gen10. Диск будет использоваться под систему. Форм-фактор пятого диска 2.5. Выбор пал на модель — WD10JFCX.

Теги