Перейти к основному содержанию

Неожиданная перезагрузка HPE Proliant Gen9 сервера

Hewlett Packard Enterprise

Уже на двух серверах поймали ошибку с неожиданной перезагрузкой.

Серверы HPE ProLiant Gen9 могут неожиданно перезагружаться или выключаться, в следующих сценариях:

Сценарий 1

Сервер неожиданно перезагружается или отключается, при этом в журнале управления нет записей, указывающих на возникновение сбоя.

Сценарий 2

Сервер неожиданно перезагружается или отключается, и во время самотестирования при включении (POST) при следующей загрузке системы может появиться ошибка, аналогичная следующей, а также в журнале управления:

Option ROM POST Error: 1719-Slot 0 Drive Array - A controller failure event occurred prior to this power-up. (Previous lock up code = 0x12) Action: Install the latest controller firmware. If the problem persists, replace the controller.

hpe

Важно отметить, что в сообщении об ошибке выше код зависания 0x12. Другие коды зависания не относятся к этому уведомлению. Номер слота в сообщении об ошибке может варьироваться.

Сценарий 3

Сервер неожиданно перезагружается или отключается, и в журнале управления есть запись, аналогичная следующей:

Uncorrectable Machine Check Exception (Board 0, Processor 2, APIC ID 0x00000040, Bank 0x00000004, Status 0xBA000000'73000402, Address 0x00000000'00000000, Misc 0x00000000'00000000)

Следующие элементы в записи UMCE выше должны совпадать:

  • Банк 0x00000004
  • Статус 0xBA000000'73000402'

Другие записи некорректного исключения проверки машины, которые происходят одновременно, могут присутствовать в журнале управления.

Следующая ошибка может или не может присутствовать во время POST или в журнале управления:

Option ROM POST Error: 1719-Slot 0 Drive Array - A controller failure event occurred prior to this power-up. (Previous lock up code = 0x12) Action: Install the latest controller firmware. If the problem persists, replace the controller.

Важно отметить, что в сообщении об ошибке выше код зависания 0x12. Другие коды зависания не относятся к этому уведомлению. Номер слота в сообщении об ошибке может варьироваться.

Где наблюдается

Любые серверы ProLiant Gen9 указанные ниже, которые сконфигурированы с одним из следующих моделей процессоров:

  • Процессор Intel серии E5-2600 v4
  • Процессор Intel серии E5-4600 v4
  • Процессор Intel серии E7-4800 v4

Решение

Важно: Хотя могут присутствовать сообщения об ошибках, указывающие на сбой контроллера Smart Array, контроллер Smart Array не является дефектным.

Обновить BIOS до версии не ниже 2.74. Intel задокументировала эту проблему как ошибку BDF103 в обновлении спецификации семейства процессоров Intel Xeon E5-2600 v4, версия 20.0.

Если проблема повторяется даже после прошивки BIOS, выполните следующие шаги:

  1. Обновите BIOS ROM до версии 2.74, если это еще не было сделано.
  2. Перезагрузите сервер.
  3. Во время POST нажмите F9, чтобы загрузиться в меню системных утилит.
  4. В меню системных утилит перейдите к "System Configuration → BIOS/Platform Configuration (RBSU) → Advanced Options → Uncore Frequency Limiting".
  5. Выберите "Enabled" и нажмите "Enter".
  6. Нажмите F10, чтобы сохранить изменения, затем нажмите "Y", когда будет предложено подтвердить изменения.
  7. Неоднократно нажимайте клавишу "ESC", чтобы вернуться на верхний уровень меню. У вас будет два варианта: "Exit and Resume System Boot" или "reboot the system". Выберите "reboot the system" и выйдите из системных утилит, затем нажмите "Enter", когда будет предложено выйти и перезагрузить сервер.
  8. Позвольте серверу перезагрузиться и загрузить ОС.

Затронутые платформы

HPE Synergy 480 Gen9 Compute Module, HPE Synergy 660 Gen9 Compute Module, HPE Synergy 620 Gen9 Compute Module, HPE Synergy 680 Gen9 Compute Module, HPE ProLiant XL270d Gen9 Server, HPE ProLiant XL260a Gen9 Server, HPE ProLiant XL730f Gen9 Server, HPE ProLiant DL180 Gen9 Server, HPE ProLiant DL360 Gen9 Server, HPE ProLiant BL460c Gen9 Server Blade, HPE ProLiant DL380 Gen9 Server, HPE ProLiant ML350 Gen9 Server, HPE ProLiant XL230a Gen9 Server, HPE ProLiant XL250a Gen9 Server, HPE ConvergedSystem 700x v1.1 VMware Kit, HPE ProLiant XL740f Gen9 Server, HPE ProLiant XL750f Gen9 Server, HPE ProLiant DL120 Gen9 Server, HPE ProLiant ML150 Gen9 Server, HPE ConvergedSystem 700 Virtualization 2.0 VMware Kit, HPE ProLiant ML110 Gen9 Server, HPE ProLiant XL170r Gen9 Server, HPE ProLiant XL190r Gen9 Server, HPE ProLiant WS460c Gen9 Graphics Server Blade, HPE ProLiant DL580 Gen9 Server, HPE ProLiant BL660c Gen9 Server, HPE Apollo 4200 Gen9 Server, HPE ProLiant XL450 Gen9 Server.

Ссылки

https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00060570en_us

Теги

Цены

 

Похожие материалы

HP Proliant DL580 Gen9 — установка PCIe NVMe дисков

Посетил ЦОД для установки четырёх PCIe NVMe дисков в сервер HP Proliant DL580 Gen9. Диски объёмом 12.8 ТБ будут собраны в программный RAID10 с помощью mdadm. Операционная система Oracle Linux.

Теги

HP Proliant DL360 Gen9 — установка платы Mellanox ConnectX-4 LX CX4121A

Устанавливаем 10 GB плату Mellanox ConnectX-4 LX CX4121A в  сервер HP Proliant DL360 Gen9. В vCenter плата определяется как "Mellanox Technologies MT27630 Family [ConnectX-4 LX]". Обычная PCI плата. Из удобств можно отметить наличие сменной короткой планки. При вставке в сервер другим внутренним элементам не мешает.