Фриз контроллера, обрый логов journal

Добрый день!

Завис контроллер в Aug 27 09:22:36, логи в журнале обрываются внезапно без признаков завершения работы контроллера, словно контроллер выключили по питанию.
После этого контроллер не выполнял никакие правила wb-rules, так же у нас настроена перезагрузка в wb-rules в 0:33, но и она не сработала.
Сегодня контроллер обнаружили визуально в работающем состоянии (как обычно моргала зеленая лампочка). Передернули питание, контроллер заработал.

Список последних перезагрузок:
last -x shutdown reboot | head
reboot   system boot  5.10.35-wb175    Thu Aug 28 09:20   still running
reboot   system boot  5.10.35-wb175    Wed Aug 27 00:38   still running
shutdown system down  5.10.35-wb175    Wed Aug 27 00:33 - 00:38  (00:04)
reboot   system boot  5.10.35-wb175    Tue Aug 26 00:38 - 00:33  (23:55)
shutdown system down  5.10.35-wb175    Tue Aug 26 00:33 - 00:38  (00:04)
reboot   system boot  5.10.35-wb175    Mon Aug 25 00:38 - 00:33  (23:55)
shutdown system down  5.10.35-wb175    Mon Aug 25 00:33 - 00:38  (00:04)
reboot   system boot  5.10.35-wb175    Sun Aug 24 00:38 - 00:33  (23:55)
shutdown system down  5.10.35-wb175    Sun Aug 24 00:33 - 00:38  (00:04)
reboot   system boot  5.10.35-wb175    Sat Aug 23 00:38 - 00:33  (23:55)

all.txt.zip (2,9 МБ)

приложен диагностический архив, доступен только сотрудникам поддержки
(257,5 КБ)
reboots.txt (52,3 КБ)

После анализа нашел еще такие оборванные интервалы (подсветил красным и желтым):
log_highlight.html (54,2 КБ)

Так же вижу, словно на контроллере иногда слетает время - появляется 1 января.

Добрый день!

В представленных логах не видно явной причины зависания.
Чтобы понять, на каком этапе возникает проблема, рекомендую:

  • настроить правило, которое будет раз в 30 секунд записывать отметку времени в MQTT и системы
  • при возможности подключиться к отладочной консоли и снимать показания в консоли
  • организовать запись в файл состояния ОЗУ, ЦПУ и других системных параметров

Это поможет зафиксировать момент сбоя и сузить круг возможных причин.

1 лайк

Добрый день,
Удалось ли решить вопрос?

Добрый день!
Пока нет, будет запускать контроллер в офисе и следить за ним. Воспроизводится далеко не каждый день.

Добрый день!

Ожидаю тогда обратной связи.

1 лайк

Случайно обнаружили еще один контроллер с подобными проблемами:

all.txt (5,2 МБ)

приложен диагностический архив, доступен только сотрудникам поддержки
(182,4 КБ)

UPD:
Возможно его ребутили руками, не актуально.

Добрый день!

Судя по выводу, перезагрузка была штатной или по обрыву питания.
Обратил внимание на повторяющуюся строку в логе:

Jun 21 08:09:00 IQ561001 python3[14478]: Disconnect returned result: Out of memory.

Рекомендую проверить утилизацию ОЗУ на контроллере.

Добрый день,
Удалось ли решить вопрос?

Ага, монтажники видимо его часто выключали при выполнении работ. В этом случае (в этом контроллере) смущает только время загрузки 1 Января.
Проблемный контроллер, лог кооторого изначално скидывал, еще не получили в офисе. Ждем.

Добрый день!

Время загрузки — 1 января. Возможно, в сети некорректно сработал NTP. Рекомендую проверить NTP сервер.

Добрый день,
Удалось ли решить вопрос?

2 сообщения были перенесены в новую тему: Фриз контроллера