Неожиданная перезагрузка WB7 без видимых следов

Добрый день.

С утра мониторинг “порадовал” сообщением, что мой WB7 перезагрузился (Графана на стороннем сервере, тупо высылает алерт, когда аптайм уменьшился). Полез разбираться - и загадка.
В системном журнале тишина, предыдущий бут просто обрывается в 11:34, никаких подозрительных сообщений. Новый бут начинается в 11:39, что делал контроллер 5 минут перерыва - непонятно.
Питание не пропадало, да и батарейка есть (её заряд после перезагрузки увеличился с 95% до 98%). Напряжение стабильно 25,5-25,6 В.
Load average до ребута меньше единицы, график без аномалий. Температура платы и CPU - тоже в норме.
Логи сервиса watchdog пустые, ничего кроме запуска самого сервиса.

До этого подобных проблем с этим конртроллером не наблюдалось, работал месяцами (правда, в другом месте с другими внешними модулями и функционалом, на текущем месте проработал неделю примерно, но бесперебойно).

Куда ещё можно копнуть для диагностики? Такие сюрпризы во время, когда контроллер управляет полезной нагрузкой, мягко говоря, нежелательны (кстати, надо подумать, как мои правила отработают такую ситуацию…)
Особенно загадочная штука - 5-минутный перерыв между последней активностью и началом новой загрузки, может эта аномалия подскажет причину?

P.S. Ещё одна странность - в логах systemd-journald до ребута время отображалось в UTC, а после ребута - в MSK, так что событие перезагрузки выглядит вот так:

Jun 22 07:34:15 buzharovo-wb1 wb-mqtt-snmp[18852]: ERROR: failed to poll snmp_[...]
Jun 22 07:34:16 buzharovo-wb1 wb-mqtt-snmp[18852]: ERROR: failed to poll snmp_[...]
-- Boot 56b0c2df121d44b2bad5c9f321fa07a4 --
Jun 22 11:39:34 buzharovo-wb1 kernel: Booting Linux on physical CPU 0x0

(ошибки до ребута - это опрос одной железки по SNMP, которая была на предыдущем “месте работы” контроллера и которую я забыл удалить из конфига, там весь журнал в этих ошибках каждые несколько секунд был, но зато их прекращение чётко позволяет отследить момент, когда контроллер перестал работать)
Но на самом деле там не 3 часа прошло, а 5 минут, все графики строит корректно, просто часовой пояс для отображения даты почему-то поменялся.

Добрый день
Для диагностики проблемы пришлите, пожалуйста, архив с диагностической информацией контроллера. Создание архива описано в документации.

Добрый день. Архив я, конечно, скидываю, но вообще прежде всего интересно не чтобы Вы за меня диагностику делали, а самому понять, и что в этот раз приключилось, и как в будущем диагностировать подобные ситуации.
Пока глянул в этот самый архив - судя по файлу wb-ec\poweron_reason_str.log - у меня сработал аппаратный watchdog. А вот почему он сработал (точнее, почему контроллер завис и watchdog'у пришлось его перезагрузить) - крайне интересный вопрос, ответ на который непонятно где искать…

приложен диагностический архив, доступен только сотрудникам поддержки
(435.5 KB)

Добрый день!

Да, действительно, в логах даже следов не отобразилось.
В таком случае остаётся один путь: подключиться через debug-консоль и вести мониторинг до следующего зависания, чтобы зафиксировать момент сбоя.

Ну пока это единичный случай. Если будет повторяться - придётся поставить рядом какую-нибудь “малинку”, подключив её к debug console, чтобы писала весь вывод.

Ну и поставил себе интересную задачку обрабатывать такие ситуации с минимальным ущербом, есть о чём подумать…

Добрый день!

Если ситуация повторится — прошу направить вывод с консоли для анализа.

Вчера с похожим разбирался закинул в чат гпт, он все доступно рассказал, закидывал файл last_logs.previous-boot.log, тк без перегрузки не мог подключиться к контроллеру

1 лайк

Добрый день!

Можно также воспользоваться нашим роботом для анализа — он доступен в правом верхнем углу интерфейса, значок с изображением робота.

Спасибо, но мне для чтения логов линукса своего естественного интеллекта хватает без привлечения искусственного :slight_smile:

1 лайк

Добрый день,
Удалось ли решить вопрос?

Пока что проблема не повторялась, так что и выяснить причину того зависания нет возможности. Если хотя бы месяц проработает без повторения подобных инцидентов - спишу на влияние мистических сил и успокоюсь :slight_smile:

1 лайк

Добрый день!

Хорошо, если возникнут проблемы — сразу пишите, постараюсь помочь оперативно.