Теряется связь с контроллером WB8.4 или контроллер зависает

Добрый день.
Сегодня снова не смог получить доступ к контроллеру через соединение по ethernet.
Внешне контроллер выглядит работающим:

Это уже второй раз за последние несколько дней. На контроллере не стоит никакого софта, кроме htop, не настроены никакие правила.
Сразу после первого включения был произведен apt-get upgrade
Wifi соединение отключено.
В контроллере установлен модуль wbmz5-battery

Что я могу сделать с контроллером, чтобы понять причину зависания?
Первое такое зависание описано тут
Но сейчас контроллер настроен на статический адрес.

Перезагрузил контроллер, и через какое-то время он снова завис.
В момент когда он завис перестали мигать подключенные по modbus модули. Контроллер перестал выходить на связь, судя по метрикам 08-06-24 18:26:40 мск.
Приложил диагностический архив сразу после перезапуска.
diag_output_AFHCBGVX_2024-06-08-19.48.19.zip (153,4 КБ)

Обратите внимание:

Jun 08 17:50:40 wirenboard-AFHCBGVX systemd[1]: wb-mqtt-serial.service: Main process exited, code=killed, status=4/ILL
Jun 08 18:10:38 wirenboard-AFHCBGVX systemd[1]: wb-mqtt-serial.service: Main process exited, code=killed, status=4/ILL
Jun 08 18:19:54 wirenboard-AFHCBGVX systemd[1]: wb-mqtt-serial.service: Main process exited, code=killed, status=4/ILL

сервис много раз останавливается.
но оом killer отправляет 15, что интересно.
нет ли утечки памяти? проверьте по метрикам - не растет ли занятая RAM

Добрый день. Как видите перед самым зависанием не росла память. Откуда там взять ся оом мне непонятно, на контроллере не стоит никакой софт, кроме штатного.

Сегодня ночью снова завис, так же - мигает кнопкой контроллер, все устройства к нему подключенные не мигают.

Какую информацию мне собрать, может дать доступ вам к контроллеру?
И еще вопрос - почему wd не сработал?

Меня смущает, что перестает работать и ssh и webui и mqtt-serial и еще что-то. Если бы пришел дядюшка ООМ, он бы убил что-то одно.

Проверил debug network: диск не создается в ос Windows, адаптер не появляется.
Проверил debug console: первый раз появилось приглашение для ввода логина, но после ввода больше никаких движений не было, консоль зависла. повторное подключение к debug console не срабатывает, приглашения тоже нет.

В наличии есть осцилл, могу проверить сигналы на линиях, если скажете что смотреть.

Есть возможность поставить node exporter и отлить данные хоста в локальный prometheus, правда я хз поможет ли это что-то понять

Пакеты все обновлены до актуальных? Если да - то предлагаю поменять, нет предположений (не воспроизводится).

Сегодня обновил все пакеты, было только 2 обновления:

Следующие пакеты будут обновлены:
  wb-mqtt-serial wb-release-info

Извлек модуль wbmz5-battery, наблюдаю.

Решил поковырять serial driver.
Остановил сервис, запустил драйвер руками и вот вывод

root@wirenboard-AFHCBGVX:~# wb-mqtt-serial -d3
... 
<7>DEBUG: [port] /dev/ttyRS485-2: Sleep 0 us
<7>DEBUG: [port] /dev/ttyRS485-2: Write: 4f 02 00 00 00 08 76 22
<7>DEBUG: [port] /dev/ttyRS485-2: Sleep 9167 us
<7>DEBUG: [serial client] </dev/ttyRS485-1 9600 8 N 2>24060834: Wait until 24061533
<7>DEBUG: [port] /dev/ttyRS485-2: ReadFrame: 4f 02 01 00 b6 a0
<7>DEBUG: [serial client] </dev/ttyRS485-2 9600 8 N 2>24060837: Wait until 24060837
<7>DEBUG: [port] /dev/ttyRS485-2: Sleep 5000 us
<7>DEBUG: [port] /dev/ttyRS485-2: Sleep 0 us
<7>DEBUG: [port] /dev/ttyRS485-2: Write: 50 04 00 68 00 02 fd 96
<7>DEBUG: [port] /dev/ttyRS485-2: Sleep 9167 us
<7>DEBUG: [port] /dev/ttyRS485-2: ReadFrame: 50 04 04 00 00 23 95 62 1e
<7>DEBUG: [register] new val for <modbus:80:input: 104>: 2395
<7>DEBUG: [serial port driver] channel 'Uptime' of device 'wb-mai6_80' <-- 9109
<7>DEBUG: [driver] Receive event SyncEvent{}
<7>DEBUG: [tx 0X7C004A50] Open
<7>DEBUG: [driver] waiting for transaction to complete
Illegal instruction 
root@wirenboard-AFHCBGVX:~#

в wb-mqtt-db и wb-mqtt-adc все то же самое, дебажные логи не дают никакой ясности. Сервисы постоянно рестартятся

Настроил wifi на статический ip, контроллер работал без wbmz5-battery, и все равно в итоге завис.
В этот раз при подключении по ssh устанавливается соединение, можно ввести пароль, но после ввода пароля соединение зависает и в итоге пустило в консоль.
Вот что я там увидел

Welcome to Wiren Board 8.4.3 (s/n AFHCBGVX), release wb-2404 (as stable)
Linux wirenboard-AFHCBGVX 6.8.0-wb5 #22 SMP Mon May 20 13:31:44 UTC 2024 aarch64 GNU/Linux

System load:   78.11 77.87 77.45	Up time:       22:28
Memory usage:  8% of 3.84G  	Usage of /:    38% of 2.0G   	/mnt/data:     2% of 55G

все очень сильно тормозит. Вызвать команду htop я смог, но не увидел там ничего, в это же время все команды, которые хотят что-то сделать с fs зависают:
ls, df -ih, top, а systemctl говорит:

systemctl list-units
Failed to list units: Конечная точка передачи не подсоединена

systemctl stop wb-mqtt-ads
Failed to stop wb-mqtt-ads.service: Конечная точка передачи не подсоединена
See system logs and 'systemctl status wb-mqtt-ads.service' for details.

Из этого я делаю вывод, что что-то происходит с флешкой или файловой системой.
kill - так же не работает.

mount показывает вот что

root@wirenboard-AFHCBGVX:~# mount
/dev/mmcblk0p2 on / type ext4 (rw,noatime,discard,errors=remount-ro,stripe=1024)
devtmpfs on /dev type devtmpfs (rw,relatime,size=1996240k,nr_inodes=499060,mode=755)
proc on /proc type proc (rw,nosuid,nodev,noexec,relatime)
sysfs on /sys type sysfs (rw,nosuid,nodev,noexec,relatime)
securityfs on /sys/kernel/security type securityfs (rw,nosuid,nodev,noexec,relatime)
tmpfs on /dev/shm type tmpfs (rw,nosuid,nodev)
devpts on /dev/pts type devpts (rw,nosuid,noexec,relatime,gid=5,mode=620,ptmxmode=000)
tmpfs on /run type tmpfs (rw,nosuid,nodev,size=805664k,nr_inodes=819200,mode=755)
tmpfs on /run/lock type tmpfs (rw,nosuid,nodev,noexec,relatime,size=5120k)
cgroup2 on /sys/fs/cgroup type cgroup2 (rw,nosuid,nodev,noexec,relatime,nsdelegate,memory_recursiveprot)
pstore on /sys/fs/pstore type pstore (rw,nosuid,nodev,noexec,relatime)
bpf on /sys/fs/bpf type bpf (rw,nosuid,nodev,noexec,relatime,mode=700)
hugetlbfs on /dev/hugepages type hugetlbfs (rw,relatime,pagesize=2M)
mqueue on /dev/mqueue type mqueue (rw,nosuid,nodev,noexec,relatime)
configfs on /sys/kernel/config type configfs (rw,relatime)
debugfs on /sys/kernel/debug type debugfs (rw,nosuid,nodev,noexec,relatime)
fusectl on /sys/fs/fuse/connections type fusectl (rw,nosuid,nodev,noexec,relatime)
systemd-1 on /mnt/sdcard type autofs (rw,relatime,fd=45,pgrp=1,timeout=0,minproto=5,maxproto=5,direct)
/dev/mmcblk0p6 on /mnt/data type ext4 (rw,noatime,discard,stripe=1024)
/dev/mmcblk0p6 on /var/log type ext4 (rw,noatime,discard,stripe=1024)

а вот mount -l зависает на

/dev/mmcblk0p6 on /mnt/data type ext4 (rw,noatime,discard,stripe=1024)

из /mnt/data не все файлы читаются, часть зависает на чтении.

перемонтировать раздел не получается, команда зависает.
Кажется я тут сделал все, что мог.

Здравствуйте. Что-то странное, интересно посмотреть в лаборатории.

Давайте мы бесплатно поменяем вам оборудование. Курьер привезёт новое оборудование и заберёт старое:

  • WB8.4 — 1шт с модулем wbmz5

Для возврата напишите, пожалуйста, письмо на info@wirenboard.com.

В письме укажите:

  1. ссылку на эту тему,
  2. серийный номер устройства,
  3. ваш действующий телефон, адрес доставки, ФИО получателя.

К сожалению, 12 июня выходной, менеджеры смогут ответить на письмо только 13-го.

Согласен. Это точно именно аппаратная проблема конкретного экземпляра. Мы отправим замену вместе с модулем wbmz5.
Напишите письмо сегодня,попрошу отправить быстрей.

Добрый день!

Мы воспроизвели проблему у себя в лаборатории, скорее всего она программная. Оборудование лучше нам пока не отправлять, постараемся решить в ближайшие дни.

а попробуйте пожалуйста переключиться на Testing. Воспроизводятся ли проблемы там?

Добрый день. переключился на testing, проверяю.

На testing - не воспроизводится?

пока uptime 17 часов - полет нормальный.

1 лайк

Некоторые сервисы продолжают рестартоваться без видимой причины.

20-06-2024 13:37:06.037 [init.scope]	Started MQTT Rule engine for Wiren Board.
20-06-2024 13:37:06.004 [init.scope]	wb-rules.service: Consumed 5min 28.030s CPU time.
20-06-2024 13:37:06.003 [init.scope]	Stopped MQTT Rule engine for Wiren Board.
20-06-2024 13:37:06.001 [init.scope]	wb-rules.service: Scheduled restart job, restart counter is at 16.
20-06-2024 13:37:04.892 [init.scope]	wb-rules.service: Consumed 5min 28.030s CPU time.
20-06-2024 13:37:04.892 [init.scope]	wb-rules.service: Failed with result 'exit-code'.
20-06-2024 13:37:04.890 [init.scope]	wb-rules.service: Main process exited, code=exited, status=1/FAILURE

приложен диагностический архив, доступен только сотрудникам поддержки
(296,7 КБ)

А есть какие-то скрипты кроме стандартных? Если да - какие?

нет, никаких скриптов нет