Разбирали проблемный кейс с подвисанием сервера БД. Операционка Oracle Linux 8 с ядром 5.4.17. Сервер при большой нагрузке может зависнуть на пару минут, потом продолжает работу. Для сервера баз данных это недопустимое поведение.
Случайно в переписке с коллегами сохранился скрин, что позволило написать эту статью. Кому-то поможет.
В консоли сервера проблема выглядит примерно так:
Та самая исходная ошибка:
INFO: task xfs-conv/sda4:990 blocked for more than 122 seconds
Сопутствующие ошибки:
echo 0 > /proc/sys/kernel/hung_task_timeout_secs
В тексте ошибки уже есть вся необходимая информация для определения места проблемы:
- XFS
- sda4
Подобная ошибка уже встречалась в Red Hat Linux:
https://lore.kernel.org/all/20211020221642.GA2361455@dread.disaster.area/T/
Симптомы похожие, исправили её. Видимо, не до конца, наш баг свеженький, неисправленный.
Проблема
На высоконагруженном сервере при использовании файловой системы XFS на системном диске сервер может зависать на пару минут.
Решение проблемы
Избавиться от XFS на системном разделе. Ставим под ОСь EXT4.
Примечание
Использование XFS на разделе с данными (несистемном) для БД не вызывает подобных ошибок.