Я уже писал статьи про поиск причин перезагрузки сервера. Мы ковыряли Ubuntu Server и Oracle Linux:
В тех случаях мы ловили реальный крах системы, который мог быть связан с аппаратной начинкой или драйверами.
И вот попался случай, когда анализ логов об аварийном завершении работы ничего не дал. А сервер перезагружается всё чаще и чаще. А нервов остаётся всё меньше и меньше. А что если причина перезагрузки не аварийная? А что если сервер перезагружается штатно? Хм...
Вот код в помощь:
grep -iv ': starting\|kernel: .*: Power Button\|watching system buttons\|Stopped Cleaning Up\|Started Crash recovery kernel' \
/var/log/messages /var/log/syslog /var/log/apcupsd* \
| grep -iw 'recover[a-z]*\|power[a-z]*\|shut[a-z ]*down\|rsyslogd\|ups'
И...
systemd[1]: Started Unattended Upgrades Shutdown.
Грёбаный ебастуз! Опять оно! Я же его удалял! Как лечить, знаем:
Ubuntu server — отключаем unattended upgrades
А вот дальше будем наблюдать, противный пакет снесли, убрали один из возможных источников нештатных перезагрузок. В данном случае не удалось найти причину в операционной системе, будем копать в аппаратную сторону. Привет, RAID контроллер...