Перейти к основному содержанию

Сгоревший диск вывел из строя сервер

Intel NVMe SSD

На сервере HPE Proliant DL580 Gen9 вышел из строя NVMe диск.

Сервер HPE Proliant DL580 Gen9 — обзор

В серверах у нас много разных NVMe дисков, в основном это Samsung. Но есть несколько штук Intel. В планах было избавиться от Intel дисков, вот и пришла пора.

Intel PCIe SSD NVMe диск — SSDPEDKE040T7

Диски выходили из строя по-разному. Иногда их удавалось реанимировать, иногда — нет. Но в этот раз всё ещё чудесатее. Диск вышел из строя, сервер перезагрузили, и... сервер не смог загрузиться:

X64 Exception Type 06 - Invalid Opcode Exception

hpe

Так сильно переклинило, что невозможно было даже в BIOS зайти. Перепрошивка BIOS не помогла, обновление iLO не помогло, настройки электропитания через iLO не помогли. Единственное, после обновления BIOS код ошибки сменился:

X64 Exception Type 0D - General Protection Exception

Перед перезагрузкой мы успели посмотреть какой диск вышел из строя, это был последний оставшийся Intel.

hpe

Дохлый диск выдернули и сервер загрузился.

Примечательно, что вся эта канитель произошла на выходных.

Резюме

Перед перезагрузкой сервера, пока ещё ОС работает, тщательно проверяйте какой именно компонент барахлит. Если вы перезагрузите сервер, не факт что он поднимется. Смотрите серийные номера, модель, производителя. Запишите PCIe адрес устройства. Это поможет вам сэкономить время на траблшутинг проблемы и простой сервера.

В нашем случае мы точно знали что именно было источником проблемы. Но выйти из строя могла материнская плата, процессор, память, слот, ещё что-нибудь. Тогда искать проблему пришлось бы долго.

Цены

 

Похожие материалы