Перезагрузка контроллера раз в несколько дней

То есть - или аппаратный WD или сбой питания. Что за бесперебойник используется? Есть ли в логах ошибки?

Бесперебойник серверный APC Smart UPS Online, блок питания Meanwell, отдельный питает только контроллер и переферийные устройства WB по 24В.

Я сейчас полез смотреть логи и процессы, обратил внимание на высокую загрузку CPU, и процесс systemd-journal который отъедал память и цпу.

Полез в var/log там огромный messages примерно такого содержимого.

Oct 14 21:37:51 wirenboard-AVNAZUEJ wb-mqtt-serial[1407]: DEBUG: [modbus] read 7 coil(s) @ 5100 of device modbus:178
Oct 14 21:37:51 wirenboard-AVNAZUEJ wb-mqtt-serial[1407]: DEBUG: [port] Sleep 0 us
Oct 14 21:37:51 wirenboard-AVNAZUEJ wb-mqtt-serial[1407]: DEBUG: [port] Write: b2 01 13 ec 00 07 a2

меня смутила фраза DEBUG, после этого полез в веб интерфейс /etc/wb-mqtt-serial.conf, оказалось что стоит галочка Enable debug logging. Видимо когда настраивал случайно включил. Загрузка CPU сразу упала. Я так думаю перезагрузки связанны с этим?! Заодно посмотрел температуру CPU при включенном дебаге она достигала 70,5 градусов, сейчас упала до 63.

Так же заметил что были 2 небольших просадки по напряжению как раз во время перезагрузки, но не сильные около -0.9в, возможно это после перезапуска стартуют контроллер и все устройства.

Да, из-за памяти - может быть.
Температура до 100 - нормальна.

Сегодня вечером опять перезагрузился, итого 11 дней аптайма.

у нас не получается это воспроизвести.

У вас есть возможность подключиться через usb-отладочную консоль и держать её открытой 10 дней, чтобы посмотреть, что там будет в момент перезагрузки?

Да, возможность есть…сейчас залогинился через minicom, под логином root. Что то необходимо запусить? Могу ли я в Screen зупустить minicom что бы не дерджать ssh соединение и консоль открытым?

Да, можно, и настроить сохранение в файл или через меню или сразу, вот так:

minicom -C /home/sysadmin/tmp/WBdebug.log -D /dev/ttyACM0 -b 115200 -8 -a off

Фалй создался но он пустой. Что то еще нужно сделать, нужно ли логинится в WB в консоли , нужно ли что то запускать еще в этой консоли?

Пустой - потому что в консоли ничего не выводится. Если, например предварительно залогиниться - и запустить ping - то что-то будет. Проверьте, если сомневаетесь.

да я не сомневаюсь я это знаю…У меня перезагружается контроллер, раз в 10 дней…мне сказали подключится к отладочному порту…так вот я подключился…мне просто консоль перенаправить в файл и оставить открытой ? просто я не понимаю что консоль может вывести в момент перезапуска, если в ней ничего не запущенно…

Если будет kernel panic - то ядро как раз в консоль выдаст сообщение.

У меня схожая ситуация, писал в другой ветке. Получилось ли решить вопрос у коллеги?
У меня перезагрузка 3-4 дня стабильно. Выдержка из лога:

Nov 17 15:06:21 wirenboard-A76QND3Y wb-rules[926]: Device "ppp0" does not exist.
Nov 17 15:06:25 wirenboard-A76QND3Y npm[942]: e[32mZigbee2MQTT:info e[39m 2021-11-17 15:06:25: MQTT publish: topic 'zigbee2mqtt/0x04cf8cdf3c8b5021', payload '{"device_temperature":2,"energy":0.17,"last_seen":1637143585166,"linkquality":153,"power":0,"state":"OFF"}'
Nov 17 15:06:35 wirenboard-A76QND3Y npm[942]: e[32mZigbee2MQTT:info e[39m 2021-11-17 15:06:35: MQTT publish: topic 'zigbee2mqtt/0x04cf8cdf3c8b5021', payload '{"device_temperature":1,"energy":0.17,"last_seen":1637143595142,"linkquality":153,"power":0,"state":"OFF"}'
Nov 17 15:06:45 wirenboard-A76QND3Y npm[942]: e[32mZigbee2MQTT:info e[39m 2021-11-17 15:06:45: MQTT publish: topic 'zigbee2mqtt/0x04cf8cdf3c8b5021', payload '{"device_temperature":2,"energy":0.17,"last_seen":1637143605103,"linkquality":153,"power":0,"state":"OFF"}'
                                                                                                                                                                                                                                                                          Nov 17 15:07:41 wirenboard-A76QND3Y systemd-modules-load[143]: Module 'sc16is7x2' is builtin
Nov 17 15:07:41 wirenboard-A76QND3Y systemd[1]: Started Create list of required static device nodes for the current kernel.
Nov 17 15:07:41 wirenboard-A76QND3Y systemd-fsck[149]: rootfs: clean, 30100/116992 files, 152639/262144 blocks
Nov 17 15:07:41 wirenboard-A76QND3Y systemd[1]: Started Load Kernel Modules.
Nov 17 15:07:41 wirenboard-A76QND3Y systemd[1]: Started File System Check on Root Device.
Nov 17 15:07:41 wirenboard-A76QND3Y systemd[1]: Started File System Check Daemon to report status.
Nov 17 15:07:41 wirenboard-A76QND3Y systemd[1]: Starting Remount Root and Kernel File Systems...

Ранее контроллер вам выслал, новый установил который вы выслали в замен, но все равно перезагрузка происходит.

Возможность подключить консоль к USB нет.

Подключил недавно консоль пока пишет. Сейчас Current uptime 12d 3h 38m
Хотя был момент что контролер перезагрузился на 3й день…На сегодня пока то что делал обновил прошивку всех устройства и сам контроллер.
Если перезагрузится в ближайшее время гляну лог, есть идея запитать контроллер по POE недавно как раз поставил в щиток ПОЕ маршрутизатор , это решит вопрос с проблемой Б.П. Так же заказал еще один доп модуль расширения rs-485, вынесу туда проблемные устройства MSW-3, которые сипят ошибки в лог. Вообще жду контроллер W7, этот оставлю резервным.

Из нестандартного у меня тестовая прошивка WRGB, zigbe2mqtt с десятком устройств, и 2 примитивных js скрипта cpu_utilization.js и выключить весь свет.

У меня БП MeanWell + WB-UPS v2, не думаю что вопрос в питание (в моем случае). По нагрузке тоже все хорошо. Более того мониторил напряжение на WB-UPS не увидел аномалий. В ваших первых постах зацепила фраза - после того как поставил zigbee.

В ближайшее время отключу zigbee, посмотрим. А вы не пробывали отключить zigbee - ребуты продолжаются?

Учитите что POE - пассивный.