В руководстве к процессорам AMD EPYC 7002 (AMD Family 17h Models 30h-3Fh) построенным на базе микроархитектуры Zen 2 в списках известных ошибок последним пунктом сообщается о том, что процессоры могут зависать после 1044 дней работы:
A Core May Hang After About 1044 Days (No fix planned)
Время проявления может колебаться в зависимости от частоты REFCLK. Решать это проблему в AMD не планируют, или не могут.
После 2 лет и 10 месяцев (1044 дней) непрерывной работы после последней перезагрузки ядро процессора не может выйти из энергосберегающего состояния CC6, сервер придется перезагрузить. Есть два способа решения проблемы:
- Перезагружать сервер раз в пару лет.
- Отключить энергосберегающий режим CC6.
Проблема долгое время оставалась незамеченной так как многолетний аптайм не типичен для большинства серверов, которые приходится периодически перезапускать для установки обновлений ядра или для перехода на новый выпуск операционной системы. И это очень печально, у меня есть гипервизоры с аптаймом больше этого срока...
Ссылки
https://www.amd.com/system/files/TechDocs/56323-PUB_1.01.pdf
https://xakep.ru/2023/06/05/amd-epyc-1044-days
https://www.opennet.ru/opennews/art.shtml?num=59243
https://old.reddit.com/r/sysadmin/comments/13wmowy/psa_epyc_7002_cpus_may_hang_after_1042_days_of/