Перейти к основному содержанию

Сгоревший диск вывел из строя сервер

Intel NVMe SSD

На сервере HPE Proliant DL580 Gen9 вышел из строя NVMe диск.

Сервер HPE Proliant DL580 Gen9 — обзор

В серверах у нас много разных NVMe дисков, в основном это Samsung. Но есть несколько штук Intel. В планах было избавиться от Intel дисков, вот и пришла пора.

Intel PCIe SSD NVMe диск — SSDPEDKE040T7

Диски выходили из строя по-разному. Иногда их удавалось реанимировать, иногда — нет. Но в этот раз всё ещё чудесатее. Диск вышел из строя, сервер перезагрузили, и... сервер не смог загрузиться:

X64 Exception Type 06 - Invalid Opcode Exception

hpe

Так сильно переклинило, что невозможно было даже в BIOS зайти. Перепрошивка BIOS не помогла, обновление iLO не помогло, настройки электропитания через iLO не помогли. Единственное, после обновления BIOS код ошибки сменился:

X64 Exception Type 0D - General Protection Exception

Перед перезагрузкой мы успели посмотреть какой диск вышел из строя, это был последний оставшийся Intel.

hpe

Дохлый диск выдернули и сервер загрузился.

Примечательно, что вся эта канитель произошла на выходных.

Резюме

Перед перезагрузкой сервера, пока ещё ОС работает, тщательно проверяйте какой именно компонент барахлит. Если вы перезагрузите сервер, не факт что он поднимется. Смотрите серийные номера, модель, производителя. Запишите PCIe адрес устройства. Это поможет вам сэкономить время на траблшутинг проблемы и простой сервера.

В нашем случае мы точно знали что именно было источником проблемы. Но выйти из строя могла материнская плата, процессор, память, слот, ещё что-нибудь. Тогда искать проблему пришлось бы долго.

Цены

 

Похожие материалы

Тестируем 10G SFP+ платы HP и Mellanox на серверах HP Proliant DL360 Gen9

Задача - проверить пропускную способность 10G сети между виртуальными машинами на разных гипервизорах.

SSD 960GB Intel DC S4500 Series SSDSC2KB960G7P (HPE VK000960GWJPF)

SSD диск корпоративного класса объёмом 960 Гб в формате 2,5 дюйма с интерфейсом SATA III. DWPD по расчётам у меня получилось 1.062, поэтому диск дольше прослужит, если его не сильно нагружать записью. Хорошая задержка при чтении, малое потребление электроэнергии.