Вышли из строя диски сразу в двух серверах

Олег

31 августа 2024

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Оба сервера: HPE Proliant DL580 Gen9.

Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало. Если выйдет из строя ещё один диск, то один из серверов потеряет данные, которые останутся на втором сервере, вот тогда ситуация и станет критичной.

NVMe диски имеют неприятную особенность выходить из строя одновременно, потому как срок их жизни конечен. В нашем случае процент использования диска достаточно мал, непонятно что с ними такое случилось.

Сложившаяся ситуация наглядно показывает необходимость иметь как локальный резерв в виде RAID массива, так и географическое резервирование, плюс ЗИП. А в ЗИПе у нас диски есть.

Сдохли два диска:

Samsung SSD MZPLJ12THALA-00007 — NVMe 12.8 ТБ

Прежде чем бежать и менять диски, следует подумать.

Если мы заменим диск, то RAID массив начнёт перестроение. Самое неприятное, что при перестроении усиливается нагрузка на массив. При этом вероятность выхода из строя ещё одного диска в процессе перестроения увеличивается. Поэтому идея одновременно заменить сбойные диски в обоих серверах — не самая лучшая. План будет такой:

Меняем диск на менее нагруженной БД, это стендбай.
Дожидаемся окончания перестроения массива.
Делаем свитчовер БД.
Только после этого меняем диск во втором сервере.

Беру первый диск, еду в ЦОД.

Гашу сервер. Кнопку на заводе неправильно поставили. Долго думал что такое DIN, потом понял, что должно быть UID.

Я знаю серийный номер вышедшего из строя диска, но в таком положении серийные номера у дисков Samsung не видны. Кстати, у Intel дисков с этим получше дело обстоит, у них серийник на торце.

Приходится по очереди извлекать диски и проверять серийные номера. Предпоследний под замену.

Меняем сбойный диск.

Аккуратно возвращаю все диски в слоты.

Собираю сервер, включаю. Проверяю что иск определился. Добавляю новый диск в RAID массив, начинается перестроение. Объёмы большие, перестроение будет длиться долго.

Включаю БД в работу и еду домой. Пока массив не перестроится, никаких действий не будет.

После перестроения массива переключаем БД. Стало спокойнее, один из серверов восстановлен. Еду в ЦОД и выключаю второй сервер.