Перейти к основному содержанию

День с админом, меняем диски

Мастерская

Один день с админом.

Сегодня снова не самый обычный пост, я еду в ЦОД менять и устанавливать диски. Дисков мало, а работы на весь день. Диски разные, оборудование тоже разное. Для мониторинга состояния дисков потребуется самые разные инструменты. Вот что у нас на сегодня:

  • Два диска Samsung по 12 ТБ. Эти диски будем добавлять к RAID10 массиву, который собран в Linux с помощью mdadm.
    Samsung SSD MZPLJ12THALA-00007 — NVMe 12.8 ТБ
  • Диск Intel на 4 ТБ серии P4600. Примечательно, что на корпусе написано P4510, считаю, что это большой косяк со стороны Intel, нельзя такие ляпы допускать на промышленном оборудовании.
    Intel PCIe SSD NVMe диск — SSDPEDKE040T7
  • Диск HPE SSD 960 ГБ, который оказался поддельным. С этим диском пришлось предварительно провести воспитательную беседу и изменить размер сектора.
    Странный диск HPE SSD 960GB SAS — MO000960JWFWT

admin

Поехали. Я стараюсь сам ездить по ЦОДам, а то сидя целыми днями в кресле можно и заболеть. Движение — жизнь.

Очень повезло, что все работы будут производиться в одной стойке. В сервере HPE Proliant DL580 Gen10 будем менять 2.5'' диск с изменённым размером сектора. А в HPE Proliant DL580 Gen9 проводим работы со всеми остальными PCIe дисками.

admin

Диск HPE SSD 960 ГБ

Для замены 2.5'' диска не требуется отключать сервер HPE Proliant DL580 Gen10. Так что работы на две минуты. Именно так я думал прошлый раз, когда попробовал заменить диск. В этом случае только подготовка к замене заняла несколько дней.

admin

Заказывали диск HPE SSD 960GB SAS MO000960JWFWT для сервера HPE Proliant DL360 Gen9 с RAID контроллером Smart Array P440ar. Пришло непонятно что. На вид всё почти верно, но прошивка диска оказалась не HPD2, да и вообще не HPE. Да и не для сервера, а с размером логического сектора 520 байт. Печаль.

hdd

Логический сектор, к счастью, удалось изменить на 512 байт:

Меняем размер логического сектора диска: 520, 524, 528, 512, 4k

Ну а дальше всё просто, вытаскиваем старый диск.

admin

Устанавливаем новый диск.

admin

Получаем удовлетворение от проделанной работы.

admin

Диск Intel на 4 ТБ серии P4600

Диск корпоративного класса серии Intel SSD DC P4600 Series. Объём 4.0TB, 1/2 Height PCIe 3.1 x4, 3D1, TLC. Один из самых первых дисков такого класса, появившихся в продаже. Этот диск пойдёт на замену сдохшему диску.

intel

Вышел из строя диск Intel PCIe SSD NVMe серии Intel SSD DC P4500 Series объёмом 4 ТБ. Программный массив RAID1 спас данные, мы быстро перенесли их на другое хранилище. Хочу удалить из mdadm массива проблемный диск, но он самовыпилился. Записываю серийный номер оставшегося диска, его вытаскивать из сервера не надо.

admin

Сервер HPE Proliant DL580 Gen9 придётся выключить. Выдвигаем сервер из стойки, снимаем крышку. Для удобства такой сервер лучше устанавливать на уровне пояса.

admin

Заглянем внутрь, здесь у нас свои сложности. В данной модели сервера имеется 9 слотов PCIe под расширение. У меня занято восемь слотов, один свободный. Но мы ведь помним, что в этот сервер нуджно будет воткнуть ещё два диска Samsung? Было принято решение избавиться от лишнего оборудования. Мы отключим от сервера полку HPE MSA 2040 с HDD дисками и уберём из сервера FC адаптеры, освободив два PCIe слота.

Математика простая: в MSA массиве 22 диска HDD (+ 2 spare) по 900 ГБ. В RAID1 массивах это 9.67 ТБ. Просто два NVMe диска по 12 ТБ уже заменят всю эту полку. Да, полку можно расширить, но основная проблема не в объёме, а в IOPS, диски HDD уже не справляются. В общем, выкидываем СХД, получим ещё 2 юнита в стойке.

admin

Для доступа к PCIe нажимаем на синюю защёлку.

admin

Отвёртка не понадобилась.

admin

Вытаскиваем лишние FC адаптеры, в шкафу полежат.

admin

Извлекаем дохлый диск Intel.

admin

Ставим новый.

admin

Делаю небольшую перестановку. Мальчики Intel налево, девочки Samsung — направо.

admin

Диск заменён. Останется только потом после включения сервера добавить диск в RAID1 массив:

mdadm — добавляем диск в RAID1 массив

admin

А пока продолжаем работу с железом.

Диски Samsung 12 ТБ

Подготавливаем диски. Собственно, даже планку менять не приходится, просто распаковываем.

admin

Устанавливаем в сервер. Остаётся только один свободный PCIe слот. Слева у нас RAID1 из Intel, справа RAID10 из Samsung, который нужно расширить на два диска.

admin

Красивый RAID массив...

admin

Хватит любоваться, пора дело делать.

admin

Фиксируем диски скобой, нормально закрыть можно только с обратной стороны сервера. Цепляем и тянем вверх до щелчка.

admin

Собираем сервер обратно, включаем и проверяем что все диски определились.

Неожиданная проблема

Диски-то определились нормально, всплыла другая проблема. После загрузки на почту было отправлено какое-то предупреждение.

admin

Состояние сервера нормальное, непонятно. Посмотрел письмо, залез в SSA... Батарейка сдохла.

admin

Не было печали, купила бабка порося. Снова лезу в сервер и фотографирую батарейку. Нужно будет купить новую и заменить потом. А пока сервер поработает без кэша на запись.

admin

Настройка массивов

Включаю сервер, возвращаемся к нашим дискам. Для работы с NVMe дисками используем пакет NVMe Command Line Interface (NVMe-CLI).

nvme list

admin

В системе теперь шесть дисков 12 ТБ и два диска 4 ТБ.

Сначала добавим в массив Intel диск.

mdadm — добавляем диск в RAID1 массив

Сейчас массив летит на одном крыле.

admin

Создаём раздел на новом диске.

admin

Загоняем диск в массив:

admin

Массив начинает восстанавливаться.

Будем работать со вторым массивом. Расширение RAID10 массива двумя дисками:

mdadm — добавляем два диска в RAID10

Делаем всё по инструкции.

admin

Второй массив начинает перестроение. Первый массив, кстати, уже восстановился, пока я возился с RAID10. 340 минут я ждать не буду, поеду домой. Дома останется только расширить файловую систему.

Работа с сервером ещё не закончена. Нам предстоит закупить батарейку и поменять её. Но это уже совсем другая история.

Цены

 

Похожие материалы

Вышли из строя диски сразу в двух серверах

Одновременно вышли из строя NVMe диски сразу в двух серверах баз данных, на основном и резервном контуре. Ситуация не самая обычная, но ещё не критичная. RAID массивы на серверах выдерживают выход из строя только одного диска, сейчас как раз по одному диску на массивах и выпало.

HP Proliant DL360 Gen9 — установка PCIe NVMe диска

Устанавливаю PCIe NVMe диск в сервер HP Proliant DL360 Gen9. Диск корпоративного класса, объём 12.8 ТБ от Samsung. Интерфейс PCIe Gen4 не поддерживается материнской платой, но диск работает и на PCIe Gen3.

HPE ProLiant DL360 Gen9 — RAID 5 из неоригинальных SSD 15ТБ

При покупке неоригинальных дисков для серверов HPE всегда есть риск того, что диски не заработают, или RAID контроллер их не увидит, или заработают, но не так как планировалось, или кулеры включатся на 100%, или случится ещё какая-нибудь неизведанная ерунда.