Столкнулся с ошибкой на сервере Dell Power Edge R640. Сервер стал иногда неожиданно уходить в перезагрузку. Сначала раз в две недели, потом чаще. В логах ошибка:
The system board PS1 PG Fail voltage is outside of range
Система в состоянии Critical. Мониторинг по ночам названивает. Неприятная картина.
Насколько я понял, первый блок питания обнаружил понижение или повышение входящего напряжения (могу ошибаться). Проблема действительно может быть в розетке. Если вы уверены, что напряжение в сети нормальное, то читаем дальше.
Будем лечить.
Способ первый
Первый способ позволит нам попытаться устранить ошибку без перезагрузки.
- Отключаем кабель питания об первого блока питания и от розетки.
- Извлекаем первый блок питания.
- Вставляем обратно первый блок питания.
- Подключаем обратно кабель питания.
- Процедуру повторяем для второго блока питания.
По сути мы по очереди переустановили блоки питания без остановки сервера.
Способ второй
Если первый способ не помог, действуем жёстче.
- Выключаем сервер и извлекаем из стойки.
- Меняем местами блоки питания.
- Переустанавливаем планки памяти.
- Переустанавливаем процессоры.
- Собираем всё обратно и включаем сервер.
- Устанавливаем последние обновления.
Личный опыт
Я применил сначала первый способ, а потом сразу второй. Была возможность выключить сервер и устроить небольшой простой. После загрузки сервер уже работает 22 дня и не беспокоит.
Update
На втором сервере такая же проблема решилась заменой материнской платы.