Периодическая перезагрузка контроллера WB6

Добрый день. Ранее обращался к вам с похожей проблемой, но там видимо была аппаратная проблема. Контроллер мне заменили, поэтому сейчас неполадки с железом можно исключить.
Сейчас происходит периодическая перегагрузка контроллера: он может работать 5 дней, может за день перезагрузиться 3-5 раз, причину установить пока не могу.
image
К контроллеру подключен 1 шт. WBIO-DI-WD-14, 4 шт. WB-MR6C v.2, 1 шт. WB-MR6CU v.2 и 1 шт. WB-MWAC. Блоки питания: у контроллера - HDR-15-24, у WB-MWAC - HDR-15-12, оба устройства запитаны через свой WB-UPS v.2.
Из ПО дополнительно установлены iRidium Server, и zigbee2mqtt.

Batch No
6.8.2A/1G/f 527
HW Revision
6.8.2
Manufacturing Date
2021-11-12 09:10:37+00:00
Release name
wb-2204
Short SN
AV6E27XX

Также прилагаю диагостические данные (112.2 КБ)
и лог за неделю (разбил на 2 части)
messages 1 (2.5 МБ)
messages 2 (3.3 МБ)

Вот ещё вывод команды df -h:


Filesystem      Size  Used Avail Use% Mounted on
/dev/root       976M  597M  313M  66% /
devtmpfs        493M     0  493M   0% /dev
tmpfs           502M     0  502M   0% /dev/shm
tmpfs           502M  508K  501M   1% /run
tmpfs           5.0M     0  5.0M   0% /run/lock
tmpfs           502M     0  502M   0% /sys/fs/cgroup
/dev/mmcblk0p6  4.7G  876M  3.6G  20% /mnt/data
tmpfs           101M     0  101M   0% /run/user/0

Что для начала можно попробовать сделать? Отключить Watchdog софтово?

Здравствуйте! Это не очень похоже на программный watchdog.
А выполните, пожалуйста, на контроллере команду для проверки износа emmc:

cat /sys/kernel/debug/mmc0/mmc0\:0001/ext_csd \
| python -c 'import binascii, sys; print "~%d%% wear" % (ord(binascii.unhexlify(sys.stdin.read().strip())[0x5e])*10)'

Вот вывод команды:


root@wirenboard-AV6E27XX:~# cat /sys/kernel/debug/mmc0/mmc0\:0001/ext_csd \
> | python -c 'import binascii, sys; print "~%d%% wear" % (ord(binascii.unhexlify(sys.stdin.read().strip())[0x5e])*10)'
~0% wear

Попробуйте все же остановить программный watchdog:

systemctl stop watchdog
systemctl disable watchdog

Если это не поможет, попробуйте для теста остановить iRidium Server и понаблюдать, будут ли перезагрузки? Возможно, что причина связана с ним.

Watchdog отключил сегодня (08.08.22), буду наблюдать.
До этого были перезагрузки каждый день:
image

Получилось ли решить проблему?

С момента отключения Watchdog’a перезагрузок не было, до этого непрерывно работало максимум 5 дней (в первом посте скриншот 27.07-01.08).
Буду мониторить, если так будет и дальше, то какие действия? Так и оставить Watchdog выключенным?
image

Можно совсем отключить.
Можно попробовать выяснить, какое из условий вызывает срабатывание программного watchdog. Условия прописаны в конфигурационном файле /etc/watchdog.conf. По умолчанию мониторится работа сервиса sshd и свободная память (должна быть не менее 1 МБ).

А есть логи, куда записывается причина срабатывания watchdog?

Посмотреть логи сервиса watchdog можно так:

journalctl -u watchdog

Вот логи сервиса watchdog.
putty.log (42.5 КБ)
Как я понимаю, там только описана инициализация сервиса при старте, причины срабатывания там не смог найти.

Да, я тоже не нашел. Возможно, iRidium как-то по-своему конфигурирует и использует watchdog. А в логах самого iRidium нет ли каких-нибудь сообщений?