Перейти к основному содержанию

HP ProLiant DL360 Gen9 — Memory initialization error

HP Proliant DL360 Gen9

Продолжение эпопеи с ошибками памяти на сервере HP ProLiant DL360 Gen9. Только что вернулся из ЦОД, задача по расширению памяти сервера всё ещё не выполнена.

Напоминаю, что в старый сервер HP ProLiant DL360 Gen9 было дополнительно воткнуто 8 планок DIMM по 16 ГБ каждая. После этого мы словили ошибку и вычислили сбойную память в 10 слоте второго процессора.

HP ProLiant DL360 Gen9 — Uncorrectable Machine Check Exception

Сервер отключил битую планку памяти, и ещё две вместе с ней, которые висели на том же канале. Ясно было, что планку нужно менять. Поскольку мы планировали расширять память на нескольких серверах, то памяти купили много, запасные планки есть. Вот я и поехал, а перед поездкой взял с собой все новые планки, чтобы их тоже проверить. А если вся партия битая, возможно, там ещё есть нерабочие планки? Редкость, конечно... Но беру всё.

hpe

Дубль два

Приезжаю в ЦОД, открываю сервер. Нахожу десятый слот второго процессора, благо все слоты подписаны на материнке. И на крышке схема есть.

hpe

Битую планку извлекаю, сразу наклеиваю на неё наклейку и помечаю DEF — defective. Вместо неё ставлю новую планку. Затем извлекаю все 16 планок, которые в сервере стояли изначально. Они явно рабочие, откладываю в сторонку.

hpe

Все пустые слоты забиваю новыми планками. Нужно же мне проверить эту партию.

hpe

Вся память не влезла. Нужно будет потом её тоже проверить. Собираем сервер обратно и включаем.

Бах:

EVENT (30 Sep 13:21): POST Error: 207-Memory initialization error on Processor 1, DIMM 12. The operating system may not have access to all of the memory installed in the system.

Бах:

EVENT (30 Sep 16:21): POST Error: 295-DIMM Failure - Uncorrectable Memory Error - Processor 1, DIMM 12. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

hpe

Теперь уже первый процессор, 12 слот.

hpe

Вот так бывает. В закупленной партии уже две битые планки. Ошибка точно такая же. Сервер также отключил битую планку и две на том же канале. Зато на втором процессоре теперь полный рабочий комплект.

Извлекаю вторую битую планку, меняю на новую.

hpe

В итоге я не поленился, проверил все планки, которые взял с собой. К счастью, в партии оказалось только две неисправных планки памяти. Но это не точно. Потому что в первый раз сервер тоже показал что всё нормально, а потом память отвалилась под нагрузкой.

Запускаю встроенную диагностическую утилиту.

hpe

Запускаю мгновенную проверку памяти.

hpe

Утилита пишет, что мгновенная проверка памяти выполняется за 3 минуты, не верьте ей. У меня ушло минут 15. В итоге: Мгновенная проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Перед уходом запускаю быструю проверку памяти.

hpe

Утилита пишет, что быстрая проверка памяти выполняется за 10 минут, не верьте ей. Прошло два с половиной часа...

hpe

Выполнено 13%. Если прикинуть, то быстрая проверка займёт 1154 минуты. Сутки. А ведь есть ещё полная проверка, не стану её запускать. Оставляю утилиту работать, завтра попытаюсь запустить сервер в бой, если память не накроется...

Делаем вывод:

Если у вас есть возможность проверить закупленное оборудование, то сделайте это.

Прошло 24 часа... 

hpe

Быстрая проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Теги

Цены

 

Похожие материалы

День, когда я менял диски

Сегодня не самый обычный пост, я еду в ЦОД менять и устанавливать диски. Любопытно, что все диски разные, оборудование тоже разное. Для мониторинга состояния дисков потребуется самые разные инструменты. Вроде бы всего 4 диска, а подходы самые разные. Поехали.

Замена диска в HP MSA 2040

В СХД HP MSA 2040 начал выходить из строя диск. Он пока не отметился как failed, но практически каждый день на нём стали происходить ошибки вида: .1.3.6.1.4.1.11.2.51.0.3001 Normal "General event" 10.10.10.12 - 3878 3 Event type: 58, An event was reported by a disk drive. (disk: channel: 0, ID: 1, SN: XXXXXXXX, enclosure: 1, slot: 2) (Key,Code,Qual,UEC:0xB,0x11,0x3,0x0000) (CDB:Rd 27212000 0800)(Info:0x272125AA)(CmdSpc:0x0, FRU:0x42, SnsKeySpc:0x0)(Aborted Command, multiple read errors)

HPE Proliant DL360 Gen10 — описание и фото

HPE Proliant DL360 Gen10 — безопасный высокопроизводительный компактный сервер в корпусе 1U отличается высокой вычислительной мощностью благодаря использованию в Gen10 поколении новых процессоров семейства Intel Xeon Scalable и высокочастотной памяти DDR4-2666. Идеально подходит для виртуализации, работы с базами данных. Автоматизация важных задач управления жизненным циклом сервера с помощью решений HPE OneView и HPE iLO 5 упрощает процессы развертывания, обновления, мониторинга и обслуживания.