На сервере HPE Proliant DL580 Gen9 вышел из строя NVMe диск.
Сервер HPE Proliant DL580 Gen9 — обзор
В серверах у нас много разных NVMe дисков, в основном это Samsung. Но есть несколько штук Intel. В планах было избавиться от Intel дисков, вот и пришла пора.
Intel PCIe SSD NVMe диск — SSDPEDKE040T7
Диски выходили из строя по-разному. Иногда их удавалось реанимировать, иногда — нет. Но в этот раз всё ещё чудесатее. Диск вышел из строя, сервер перезагрузили, и... сервер не смог загрузиться:
X64 Exception Type 06 - Invalid Opcode Exception
Так сильно переклинило, что невозможно было даже в BIOS зайти. Перепрошивка BIOS не помогла, обновление iLO не помогло, настройки электропитания через iLO не помогли. Единственное, после обновления BIOS код ошибки сменился:
X64 Exception Type 0D - General Protection Exception
Перед перезагрузкой мы успели посмотреть какой диск вышел из строя, это был последний оставшийся Intel.
Дохлый диск выдернули и сервер загрузился.
Примечательно, что вся эта канитель произошла на выходных.
Резюме
Перед перезагрузкой сервера, пока ещё ОС работает, тщательно проверяйте какой именно компонент барахлит. Если вы перезагрузите сервер, не факт что он поднимется. Смотрите серийные номера, модель, производителя. Запишите PCIe адрес устройства. Это поможет вам сэкономить время на траблшутинг проблемы и простой сервера.
В нашем случае мы точно знали что именно было источником проблемы. Но выйти из строя могла материнская плата, процессор, память, слот, ещё что-нибудь. Тогда искать проблему пришлось бы долго.