Перейти к основному содержанию

HPE — некоторые модели SSD зависают и перезагружаются после 56000 часов работы

SSD

Проблема встроенного ПО для некоторых SSD приводит к перезагрузке диска. Перезагрузка будет повторяться каждые 30-60 минут. Проблема возникает после 56000 часов работы (6.5 лет).

Если диск используется в качестве системного, то проблема приведёт к BSOD, система может выйти из строя. Данные могут быть повреждены.

Если диск входит в состав RAID, то данные сохранятся, но произойдёт сбой массива, что, в свою очередь, приведёт к перестроению. Если выйдут из строя несколько дисков, то спасёт только бэкап.

С помощью Smartmontools можно проверить срок жизни диска.

https://www.smartmontools.org/wiki/Download

Например, в smartmontools, чтобы узнать, использовался ли диск более 6,5 лет или 3 418 669,8 минут, используйте следующие команды:

smartctl --scan

/dev/sda -d scsi # /dev/sda, SCSI устройство      
/dev/bus/0 -d megaraid,6 # /dev/bus/0 [megaraid_disk_06], SCSI устройство      
/dev/bus/0 -d megaraid,7 # /dev/bus/0 [megaraid_disk_07], SCSI устройство      
/dev/bus/0 -d megaraid,9 # /dev/bus/0 [megaraid_disk_09], SCSI устройство      
/dev/bus/0 -d megaraid, 10 # /dev/bus/0 [megaraid_disk_10], SCSI device

smartctl -d megaraid,6 -a /dev/sda

smartctl 7.2 2021-09-14 r5237 [x86_64-linux-5.14.21-150400.24.111-default] (SUSE RPM)      
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org  Non-HPE site

=== START OF READ SMART DATA SECTION ===      
SMART Health Status: OK

Current Drive Temperature: 39 C      
Drive Trip Temperature: 60 C

Accumulated power on time, hours:minutes 31326:50

Manufactured in week 34 of year 2017      
Specified cycle count over device lifetime: 10000      
Accumulated start-stop cycles: 506      
Specified load-unload count over device lifetime: 300000      
Accumulated load-unload cycles: 1830      
Elements in grown defect list: 0

SMART Attributes Data Structure revision number: 10      
Vendor Specific SMART Attributes with Thresholds:      
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE      
1 Raw_Read_Error_Rate 0x000f 077 064 044 Pre-fail Always - 50079291      
3 Spin_Up_Time 0x0003 095 095 070 Pre-fail Always - 0      
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0      
7 Seek_Error_Rate 0x000f 091 064 030 Pre-fail Always - 1358777742      
9 Power_On_Hours 0x0032 050 050 000 Old_age Always - 43804      
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0      
180 Unknown_HDD_Attribute 0x003b 100 100 030 Pre-fail Always - 48312991      
194 Temperature_Celsius 0x0022 039 047 000 Old_age Always - 39 (0 18 0 0 0)      
196 Reallocated_Event_Count 0x0033 100 100 010 Pre-fail Always - 0

Уязвимые модели

Модель дискаP/NОписание
EO000400JWDKP873351-B21HPE 400GB SAS 12G Write Intensive 3yr Wty EO000400JWDKP Solid State Drive (SSD)
EO000800JWDKQ873355-B21HPE 800GB SAS 12G Write Intensive 3yr Wty EO000800JWDKQ SSD
EO001600JWDKR873357-B21HPE 1.6TB SAS 12G Write Intensive 3yr Wty EO001600JWDKR SSD
MO000400JWDKU873359-B21HPE 400GB SAS 12G Mixed Use 3yr Wty MO000400JWDKU SSD
MO000800JWDKV873363-B21HPE 800GB SAS 12G Mixed Use 3yr Wty MO000400JWDKU SSD
MO001600JWDLA873365-B21HPE 1.6TB SAS 12G Mixed Use 3yr Wty MO001600JWDLA SSD
MO003200JWDLB873367-B21HPE 3.2TB SAS 12G Mixed Use 3yr Wty MO003200JWDLB SSD

Решение

Обновить прошивку до версии HPD3.

Ссылки

https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00142174en_us&hprpt_id=ALERT_HPE_3070790

Теги

 

Похожие материалы

HPE NVMe диски перестают работать через 4700 часов

Снова проблема с дисками HPE, на этот раз пострадали NVMe диски. Прошивка 4ICRHPK3 содержит исправление критической ошибки, которая может привести к отказу диска и потере данных после 4700 часов работы.

HDD HPE 1Tb 12G SAS 7.2K — MM1000JFJTH

Диск для Gen9 и Gen10 серверов. Диск поставляется в достаточно большой для диска коробке, эффективно защищён от ударов. Упакован в антистатический пакет. Используем такие диски часто. За два года эксплуатации пока ни один такой диск не вышел из строя.

Теги