Периодическая перезагрузка контроллера WB6

Добрый день. Ранее обращался к вам с похожей проблемой, но там видимо была аппаратная проблема. Контроллер мне заменили, поэтому сейчас неполадки с железом можно исключить.
Сейчас происходит периодическая перегагрузка контроллера: он может работать 5 дней, может за день перезагрузиться 3-5 раз, причину установить пока не могу.
image
К контроллеру подключен 1 шт. WBIO-DI-WD-14, 4 шт. WB-MR6C v.2, 1 шт. WB-MR6CU v.2 и 1 шт. WB-MWAC. Блоки питания: у контроллера - HDR-15-24, у WB-MWAC - HDR-15-12, оба устройства запитаны через свой WB-UPS v.2.
Из ПО дополнительно установлены iRidium Server, и zigbee2mqtt.

Batch No
6.8.2A/1G/f 527
HW Revision
6.8.2
Manufacturing Date
2021-11-12 09:10:37+00:00
Release name
wb-2204
Short SN
AV6E27XX

Также прилагаю диагостические данные (112.2 КБ)
и лог за неделю (разбил на 2 части)
messages 1 (2.5 МБ)
messages 2 (3.3 МБ)

Вот ещё вывод команды df -h:


Filesystem      Size  Used Avail Use% Mounted on
/dev/root       976M  597M  313M  66% /
devtmpfs        493M     0  493M   0% /dev
tmpfs           502M     0  502M   0% /dev/shm
tmpfs           502M  508K  501M   1% /run
tmpfs           5.0M     0  5.0M   0% /run/lock
tmpfs           502M     0  502M   0% /sys/fs/cgroup
/dev/mmcblk0p6  4.7G  876M  3.6G  20% /mnt/data
tmpfs           101M     0  101M   0% /run/user/0

Что для начала можно попробовать сделать? Отключить Watchdog софтово?

Здравствуйте! Это не очень похоже на программный watchdog.
А выполните, пожалуйста, на контроллере команду для проверки износа emmc:

cat /sys/kernel/debug/mmc0/mmc0\:0001/ext_csd \
| python -c 'import binascii, sys; print "~%d%% wear" % (ord(binascii.unhexlify(sys.stdin.read().strip())[0x5e])*10)'

Вот вывод команды:


root@wirenboard-AV6E27XX:~# cat /sys/kernel/debug/mmc0/mmc0\:0001/ext_csd \
> | python -c 'import binascii, sys; print "~%d%% wear" % (ord(binascii.unhexlify(sys.stdin.read().strip())[0x5e])*10)'
~0% wear

Попробуйте все же остановить программный watchdog:

systemctl stop watchdog
systemctl disable watchdog

Если это не поможет, попробуйте для теста остановить iRidium Server и понаблюдать, будут ли перезагрузки? Возможно, что причина связана с ним.

Watchdog отключил сегодня (08.08.22), буду наблюдать.
До этого были перезагрузки каждый день:
image

Получилось ли решить проблему?

С момента отключения Watchdog’a перезагрузок не было, до этого непрерывно работало максимум 5 дней (в первом посте скриншот 27.07-01.08).
Буду мониторить, если так будет и дальше, то какие действия? Так и оставить Watchdog выключенным?
image

Можно совсем отключить.
Можно попробовать выяснить, какое из условий вызывает срабатывание программного watchdog. Условия прописаны в конфигурационном файле /etc/watchdog.conf. По умолчанию мониторится работа сервиса sshd и свободная память (должна быть не менее 1 МБ).

А есть логи, куда записывается причина срабатывания watchdog?

Посмотреть логи сервиса watchdog можно так:

journalctl -u watchdog

Вот логи сервиса watchdog.
putty.log (42.5 КБ)
Как я понимаю, там только описана инициализация сервиса при старте, причины срабатывания там не смог найти.

Да, я тоже не нашел. Возможно, iRidium как-то по-своему конфигурирует и использует watchdog. А в логах самого iRidium нет ли каких-нибудь сообщений?

Десятый день без перезагрузок пока.
Логи iRidium посмотрел, ничего подозрительного там не нашёл, но по количеству файлов заметил, что сам софт iRidium Server перезагружается, просто теперь без контроллера WB6:
image
Может быть с работой Watchdog iRidium тянул за собой и контроллер в reboot?

Думаю, что да, это может быть связано.

Ещё раз проверил - без перезагрузок.
В итоге, что сейчас можно предпринять? Насовсем отключить Wathcdog? И как это можно сделать? И какие потенциальные проблемы можно получить в будущем из-за этого?
И по iRidium server вопрос: наверняка, не мы одни используем данное ПО в связке с вашим контроллером. Может быть у вас есть опыт/опыт пользователей, что можно предпринять в связи с перезагрузками сервера? Или это норма и на пользователей особо никак не влияет?
Просто хотелось бы закрыть данный вопрос + в будущие проекты тоже планируем данную связку использовать.

В принципе можно отключить. Делается так:

systemctl disable watchdog

Сервис Watchdog мониторит наличие свободной ОЗУ в 1 МБ и работу сервиса ssh. Если сервис будет отключен, то отсутствие свободной ОЗУ или остановка сервиса ssh не вызовут автоматическую перезагрузку контроллера. Контроллер нужно будет перезапускать вручную или писать свой скрипт.

Думаю, что это не совсем нормально. Я бы рекомендовал уточнить этот вопрос у разработчиков iRidium: хорошо бы выяснить причину перезапуска сервера, а также почему перезагрузка сервера вызывает перезагрузку контроллера.