Добрый день.
С утра мониторинг “порадовал” сообщением, что мой WB7 перезагрузился (Графана на стороннем сервере, тупо высылает алерт, когда аптайм уменьшился). Полез разбираться - и загадка.
В системном журнале тишина, предыдущий бут просто обрывается в 11:34, никаких подозрительных сообщений. Новый бут начинается в 11:39, что делал контроллер 5 минут перерыва - непонятно.
Питание не пропадало, да и батарейка есть (её заряд после перезагрузки увеличился с 95% до 98%). Напряжение стабильно 25,5-25,6 В.
Load average до ребута меньше единицы, график без аномалий. Температура платы и CPU - тоже в норме.
Логи сервиса watchdog пустые, ничего кроме запуска самого сервиса.
До этого подобных проблем с этим конртроллером не наблюдалось, работал месяцами (правда, в другом месте с другими внешними модулями и функционалом, на текущем месте проработал неделю примерно, но бесперебойно).
Куда ещё можно копнуть для диагностики? Такие сюрпризы во время, когда контроллер управляет полезной нагрузкой, мягко говоря, нежелательны (кстати, надо подумать, как мои правила отработают такую ситуацию…)
Особенно загадочная штука - 5-минутный перерыв между последней активностью и началом новой загрузки, может эта аномалия подскажет причину?
P.S. Ещё одна странность - в логах systemd-journald до ребута время отображалось в UTC, а после ребута - в MSK, так что событие перезагрузки выглядит вот так:
Jun 22 07:34:15 buzharovo-wb1 wb-mqtt-snmp[18852]: ERROR: failed to poll snmp_[...]
Jun 22 07:34:16 buzharovo-wb1 wb-mqtt-snmp[18852]: ERROR: failed to poll snmp_[...]
-- Boot 56b0c2df121d44b2bad5c9f321fa07a4 --
Jun 22 11:39:34 buzharovo-wb1 kernel: Booting Linux on physical CPU 0x0
(ошибки до ребута - это опрос одной железки по SNMP, которая была на предыдущем “месте работы” контроллера и которую я забыл удалить из конфига, там весь журнал в этих ошибках каждые несколько секунд был, но зато их прекращение чётко позволяет отследить момент, когда контроллер перестал работать)
Но на самом деле там не 3 часа прошло, а 5 минут, все графики строит корректно, просто часовой пояс для отображения даты почему-то поменялся.