BUG? Mar 7 12:50:09 wb-rules[10524]: ERROR: [wbgo_mqtt] MQTT token wait timeout

Привет.
Где-то месяц аптайма, контроллер пропал из скады. Залез не без труда шеллом, глянул.
mosquitto занимает 354 метра памяти и cpu usage > 60%, остальное практически не ворочается.
Перестартовал. Нашел в логе вот что, много раз подряд:

Mar 7 12:50:09 wirenboard-AGPLM2T7 wb-rules[10524]: ERROR: [wbgo_mqtt] MQTT token wait timeout: *mqtt.PublishToken (&{{{{0 0} 0 0 0 0} 0x13a7b00 false } 301})
Mar 7 12:50:19 wirenboard-AGPLM2T7 wb-rules[10524]: ERROR: [wbgo_mqtt] MQTT token wait timeout: *mqtt.PublishToken (&{{{{0 0} 0 0 0 0} 0x13fc680 false } 302})

Это кто и почему?

Произошло это наутро после добавления в mosquitto.conf.d второго бриджа (через полсуток). Убрал его, перезагрузил москита, ворочаться начало лучше, но: а) ошибки такие продолжают лететь в syslog; б) в топе всё еще горячо:

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
12456 root 20 0 149672 63992 1848 S 52.5 12.6 6213:51 wb-mqtt-serial
10524 root 20 0 921584 13076 4000 S 22.5 2.6 4:52.60 wb-rules
19353 mosquit+ 20 0 354692 348512 2232 R 12.2 68.5 1:19.40 mosquitto

Ребут не наш метод, надо докопаться. Благодарю за помощь.

service wb-mqtt-serial restart

Сразу cpu ~~12%, но ошибка не пропала

service wb-rules restart

Ошибки пока больше не валятся.

Где-то что-то протекает, коллеги!!! И неслабо.

wb-configs/stretch,stretch,stretch,stretch,now 1.83.1 all [installed]
wb-configs-stretch/stretch,stretch,stretch,stretch,now 1.83.1 all [installed,automatic]
wb-daemon-watchdogs/stretch,stretch,now 1.1 all [installed]
wb-dt-overlays/stretch,stretch,stretch,stretch,now 1.3 all [installed]
wb-homa-adc/stretch,stretch,now 2.0.10 armhf [installed,automatic]
wb-homa-ism-radio/stretch,stretch,stretch,stretch,now 1.17.3 all [installed]
wb-homa-w1/stretch,stretch,now 1.10.1 armhf [installed]
wb-hwconf-manager/stretch,stretch,stretch,stretch,now 1.38.2 all [installed]
wb-mqtt-adc/stretch,now 2.0.10 armhf [installed]
wb-mqtt-confed/stretch,stretch,now 1.2.4 armhf [installed]
wb-mqtt-dac/stretch,stretch,stretch,stretch,now 1.1.1 all [installed]
wb-mqtt-db/stretch,now 1.7.3 armhf [installed]
wb-mqtt-db-cli/stretch,stretch,stretch,stretch,now 1.2.1 all [installed]
wb-mqtt-gpio/stretch,stretch,now 2.0.9 armhf [installed]
wb-mqtt-homeui/stretch,stretch,now 2.0.1 all [installed]
wb-mqtt-mbgate/stretch,now 0.2.2 armhf [installed]
wb-mqtt-serial/stretch,now 2.6.6 armhf [installed,upgradable to: 2.7.0]
wb-rules/stretch,now 2.6.0 armhf [installed]
wb-rules-system/stretch,stretch,stretch,stretch,now 1.6.9 all [installed]
wb-test-suite/stretch,stretch,stretch,stretch,now 1.20 all [installed]
wb-utils/stretch,stretch,now 2.1.5 all [installed,automatic]

Кажется, что виноват как раз mosquitto. Его не рестартовали ещё? Попробуйте консольными mosquitto_pub/mosquitto_sub к нему подключиться.

Первым рестартил, убрав второй бридж (на который и грешил как на единственное изменение перед фейлом). Сам рестарт занял минут 5, после чего с контроллером хоть как-то можно стало общаться.

Диск не забит, если что.

Состояние в БД не пишите? Если пишите, какой размер файла базы данных?

Что именно по состоянию? Снаружи мониторю напряжение питания и df. Сервер syslog тоже есть, погляжу, что там интересного. Найду - дополню тут.

База москиты была около гига. Не удалял ничего, только перегрузил эти три демона: mosquitto, wb-mqtt-serial и wb-rules.

Очень тревожно за блуждающие глюки: я вашим контроллером планирую управлять реальными узлами, не хотелось бы его забраковать как решение. Мне симпатичен.

Имел ввиду, используете ли параметр persistence_file для сохранения текущего состояния mosquitto в БД.
В целом ответ понял. У нас похожие проблемы, но проявляется не часто. Тоже хотелось бы разобраться. Как правило, через пару дней mosquitto перестает работать и контроллер уходит в bootloop по watchdog.

Это очень погано. Надо решать. Или менять линейку.

Пока симптомы не повторялись. Грешу на mosquitto, введенный мною в заблуждение (?) потенциально кривым конфигом.
Но почему пришлось передергивать и остальные демоны, ответить не смогу.