Перейти к основному содержанию

Вышли из строя диски сразу в двух серверах

Samsung SSD MZPLL12THMLA-00005

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Оба сервера: HPE Proliant DL580 Gen9.

Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало. Если выйдет из строя ещё один диск, то один из серверов потеряет данные, которые останутся на втором сервере, вот тогда ситуация и станет критичной.

NVMe диски имеют неприятную особенность выходить из строя одновременно, потому как срок их жизни конечен. В нашем случае процент использования диска достаточно мал, непонятно что с ними такое случилось.

Сложившаяся ситуация наглядно показывает необходимость иметь как локальный резерв в виде RAID массива, так и географическое резервирование, плюс ЗИП. А в ЗИПе у нас диски есть.

nvme

Сдохли два диска:

Samsung SSD MZPLJ12THALA-00007 — NVMe 12.8 ТБ

Прежде чем бежать и менять диски, следует подумать.

Если мы заменим диск, то RAID массив начнёт перестроение. Самое неприятное, что при перестроении усиливается нагрузка на массив. При этом вероятность выхода из строя ещё одного диска в процессе перестроения увеличивается. Поэтому идея одновременно заменить сбойные диски в обоих серверах — не самая лучшая. План будет такой:

  1. Меняем диск на менее нагруженной БД, это стендбай.
  2. Дожидаемся окончания перестроения массива.
  3. Делаем свитчовер БД.
  4. Только после этого меняем диск во втором сервере.

Беру первый диск, еду в ЦОД.

hpr

Гашу сервер. Кнопку на заводе неправильно поставили. Долго думал что такое DIN, потом понял, что должно быть UID.

hpe

Я знаю серийный номер вышедшего из строя диска, но в таком положении серийные номера у дисков Samsung не видны. Кстати, у Intel дисков с этим получше дело обстоит, у них серийник на торце.

hpe

Приходится по очереди извлекать диски и проверять серийные номера. Предпоследний под замену.

hpe

Меняем сбойный диск.

hpe

Аккуратно возвращаю все диски в слоты.

hpe

Собираю сервер, включаю. Проверяю что иск определился. Добавляю новый диск в RAID массив, начинается перестроение. Объёмы большие, перестроение будет длиться долго.

Включаю БД в работу и еду домой. Пока массив не перестроится, никаких действий не будет.

После перестроения массива переключаем БД. Стало спокойнее, один из серверов восстановлен. Еду в ЦОД и выключаю второй сервер.

hpe

Порядок действий будет такой же. Ищем сбойный диск по серийному номеру.

hpe

На этот раз дело пошло быстрее, меняем диск.

hpe

Готово, собираем сервер, включаем.

hpe

Настраиваем RAID массив, добавляем новый диск, начинается перестроение.

На следующий день перестроение массива завершилось, авария устранена.

 

Похожие материалы

HP Proliant DL360 Gen9 — установка PCIe NVMe диска

Устанавливаю PCIe NVMe диск в сервер HP Proliant DL360 Gen9. Диск корпоративного класса, объём 12.8 ТБ от Samsung. Интерфейс PCIe Gen4 не поддерживается материнской платой, но диск работает и на PCIe Gen3.