Диски SSD NVMe PCIe очень производительные. Однако, большой надёжностью эти диски похвастаться не могут.
Сама по себе технология SSD подразумевает ограниченный цикл перезаписи ячеек памяти. Чем чаще мы пишем данные, тем быстрее выйдет из строя диск. Часть ячеек памяти зарезервирована как запасная, поэтому даже с битыми ячейками диск продолжает работать, использую свой запас. Технология Over-Provisioning в SSD еще больше повышает надёжность диска, но уменьшает его объём.
Иногда производители допускают ошибки в прошивках, диски начинают выходить из строя при определённых условиях, задолго до срока износа ячеек памяти. Производители выпускают новые прошивки с исправлениями, работы админам добавляется. Приходится и отслеживать критические исправления для всего модельного ряда устройств, тратить время на установку обновлений. Да и сам процесс прошивки не всегда тривиален.
Надёжность SSD растёт, но диски всё равно рано или поздно выходят из строя. Даже с учётом того, что их срок жизни ещё не подошёл к концу.
NVMe диски Intel показали себя не с лучшей стороны.
Вышел из строя диск
Есть у меня на сервере программный RAID 1 массив из двух дисков NVMe. Один диск уже выходил из строя:
Вышел из строя диск Intel PCIe SSD NVMe
Теперь и второй диск сдох. Перезагрузка не помогла. Известные способы реанимации диска тоже не помогли.
Intel PCIe SSD NVMe диск — SSDPEDKE040T7
Программный массив RAID1 спас данные, мы быстро перенесли их на другое хранилище. Запасного диска Intel того же объёма нет. Но есть Samsung большего объёма.
Samsung SSD 6.4TB PCIe MZPLL6T4HMLA-00005
Я подготовил диск и взял вторую планку, потому что не помню как там диск в сервере стоит. Отвёртка тоже пригодится. Едем в ЦОД.
Для начала нужно определить, какой из дисков неисправен. Можно посмотреть серийный номер работающего диска, чтобы вычислить погорельца.
Но всё оказалось проще, неисправный диск подсвечивается красным.
Как говорится: "Помогите Даше найти неисправный диск."
Не зря взял длинную планку, прикручиваю её. Видно, что понадобится именно она.
Выключаю сервер, выдвигаю из стойки. Это у нас HPE Proliant DL580 Gen9. Снимаю крышку.
Добраться до зоны PCIe не сложно. Здесь у нас забито почти всё, один слот только свободен.
NVMe диски Intel слева.
PCIe адаптеры фиксируются планкой, чтобы её поднять, нужно нажать синюю скобу.
Извлекаем неисправный диск.
Этот — в утиль.
Замена подготовлена.
Устанавливаем новый диск.
Закрываем планку. Для этого руку просовываем к задней панели сервера и поднимаем планку пальцами. Можно это сделать и после установки сервера в стойку, если забудете.
Осталось собрать сервер и подключить новый диск к программному массиву в операционной системе.
Скорее всего буду постепенно выводить из эксплуатации Intel диски, по мере их выхода из строя, и менять на Samsung.