Есть программный массив RAID1 из двух NVMe дисков. В один прекрасный момент один из дисков стал существенно тормозить. Пришла пора выкинуть диск из массива и заменить новым.
На графике задержка при записи на два одинаковых диска. На одном диске задержка 1 мс, на втором — 160 мс. Хотя оба диска идентичны:
SSD Dell EMC NVMe 3.84 TB — KCD5XLUG3T84
Будем удалять /dev/nvme1n1. Сервер отключать нельзя, все операции по замене диска будем выполнять на лету. Текущий массив /dev/md127.
mdadm --detail /dev/md127
Уровень массива RAID1, есть два диска:
- /dev/nvme0n1
- /dev/nvme1n1 - на удаление
Помечаем диск как сбойный:
mdadm /dev/md127 --fail /dev/nvme1n1
RAID1 массив переходит в состояние active, degraded. Диск /dev/nvme1n1 в состоянии faulty. Массив продолжает работать на одном диске.
Удаляем сбойный диск из массива:
mdadm /dev/md127 --remove /dev/nvme1n1
Диск удалён из массива. Теперь можно его извлечь из сервера и заменить другим диском.
Добавить диск в массив можно командой:
mdadm /dev/md127 --add /dev/nvme1n1
В помощь: