Перейти к основному содержанию

CMCI storm detected

server

Сегодня штормит. В dmesg аппаратного сервера сыпятся ошибки вида:

CMCI storm detected: switching to poll mode
CMCI storm subsided: switching to interrupt mode

linux

Не самая приятная ошибка, потому как причины возникновения могут быть разными. Сообщения формата "CMCI storm detected" в выводе dmesg указывают на наличие большого количества исправленных ошибок, обнаруженных системой мониторинга процессоров Intel под названием Corrected Machine Check Interrupt (CMCI). Эти сообщения могут сигнализировать о потенциальных проблемах с аппаратным обеспечением или перегрузках системы. Возможные причины появления таких сообщений.

Проблемы с железом

  • Ошибки в оперативной памяти (RAM): Неполадки в модулях памяти могут приводить к сбоям в работе системы.
  • Материнская плата: Неисправности на материнской плате, такие как поврежденные слоты для памяти или проблемы с электроснабжением, могут также приводить к подобным сообщениям.
  • Процессор: Если процессор имеет физические дефекты или перегревается, это может увеличивать количество исправленных ошибок.

Если в результате шторма сервер зависает и в dmesg проскакивают сообщения про проблемы DIMM, то, скорее всего, имеет место быть неисправность памяти. Обычно при этом перезагрузка ненадолго помогает.

Перегрев

  • Температура: Высокие температуры могут негативно влиять на производительность и надежность оборудования. Перегрев может быть вызван недостаточным охлаждением, засорением вентиляционных отверстий, неисправными вентиляторами или неправильной установкой системы охлаждения. При перегреве процессор может генерировать больше ошибок, которые система пытается исправить.

Электропитание

  • Нестабильное питание: Неправильное или нестабильное электропитание (например, колебания напряжения) может вызывать сбои в работе оборудования. Это может происходить из-за неисправных блоков питания или перегрузок в электрической сети.
  • Недостаточная мощность: Если система требует больше энергии, чем может обеспечить блок питания, это может привести к увеличению числа исправленных ошибок.

Нагрузка

  • Высокая нагрузка на систему: При выполнении ресурсоемких задач (например, обработка больших объемов данных или работа с виртуальными машинами) система может испытывать сильные нагрузки. Это может привести к увеличению числа исправленных ошибок, так как компоненты работают на пределе своих возможностей.
  • Конфликты между процессами: Если несколько процессов одновременно пытаются получить доступ к одной и той же области памяти, это может вызывать ошибки, которые система будет пытаться исправить.

Ошибки ПО

  • Некорректные или устаревшие драйверы: Программные сбои, вызванные неправильными драйверами, могут приводить к неправильной работе оборудования и увеличению числа исправленных ошибок.
  • Ошибки в операционной системе: Программные ошибки или конфликты в ОС могут также вызывать неправильное поведение оборудования, что может проявляться в виде исправленных ошибок.

Что делать?

  1. Проверить аппаратное обеспечение: Провести диагностику оперативной памяти и проверить другие компоненты на наличие неисправностей.
  2. Проверить температуру: Настроить мониторинг температуры компонентов и убедиться, что те не перегреваются.
  3. Проверить блоки питания: Убедиться, что БП работают корректно и обеспечивает стабильное напряжение.
  4. Проверить нагрузки: Проверить текущую нагрузку на систему и выявить потенциальные узкие места. Настроить мониторинг нагрузки и провести корреляцию с моментами возникновения шторма.
  5. Обновить драйверы и ОС: Убедиться, что все драйверы и операционная система обновлены до последних версий.

Своевременное реагирование на такие сообщения может помочь предотвратить серьезные сбои в работе системы и продлить срок службы оборудования.

Теги

 

Похожие материалы

Ubuntu — добавляем диск на лету

Сисадмин должен знать как добавить диск на Ubuntu сервер. Иногда сервер проблематично перезагрузить, поэтому хороший сисадмин должен знать как добавить диск на Ubuntu сервер без перезагрузки.

Теги

Быстрое низкоуровневое форматирование с изменением размера сектора

Иногда нет возможности долго ждать, в этом случае может прийти на помощь быстрое низкоуровневое форматирование.