Контроллер WB6 раз в несколько недель теряет связь с модулями (wb-hwconf-manager.service)

Добрый день,

В щите установлен Wirenboard 6, к нему справа подключены 3 модуля (WBIO-DI-WD-14, WBIO-DO-R10A-8 и ABIO-DI-WD-14), и по RS485 еще четыре модуля (два WB-MR6LV, WB-MRGBW-D и WB-MWAC). Питается все это от блока питания DRC-60A (1.8A, должно хватать с запасом). Система может неделями работать нормально, то иногда (пока не могу понять, после чего) контроллер теряет связь со всеми модулями (и боковыми, и по RS495). Сам контроллер при этом работает и свои входы-выходы видит.

Мне кажется, что ошибка аналогичная той, которая описана вот тут Ошибка при загрузке WB6: Failed to start LSB: Hardware configuration with Device Tree overlays

Обычная перезагрузка контроллера не помогает, нужно физически отключить питание контроллера и модулей(не уверен, кого именно нужно включить, правда).

Если выполнить service wb - hwconf - manager status , получается следующий вывод:

Jul 24 19:24:39 wirenboard-ASG25SO wb-hwconf-manager[341]: Warning (avoid_default_addr_size): Relying on default #address-cells value for /fragment/overlay/extio1_wbi

Jul 24 19:24:39 wirenboard-ASG25SO wb-hwconf-manager[341]: Warning (avoid_default_addr_size): Relying on default #size-cells value for /fragment/overlay/extio1_wbio_d

Jul 24 19:24:41 wirenboard-ASG25SO wb-hwconf-manager[341]: …Initializing wb6-extio2:wbio-do-r10r-4.

Jul 24 19:24:42 wirenboard-ASG25SO wb-hwconf-manager[341]: Warning (reg_format): “reg” property in /fragment/overlay/extio2_wbio_do_r10r_8@21 has invalid length (4 by

Jul 24 19:24:42 wirenboard-ASG25SO wb-hwconf-manager[341]: Warning (avoid_default_addr_size): Relying on default #address-cells value for /fragment/overlay/extio2_wbi

Jul 24 19:24:42 wirenboard-ASG25SO wb-hwconf-manager[341]: Warning (avoid_default_addr_size): Relying on default #size-cells value for /fragment/overlay/extio2_wbio_d

Jul 24 19:29:32 wirenboard-ASG25SO systemd[1]: wb-hwconf-manager.service: Start operation timed out. Terminating.

Jul 24 19:29:32 wirenboard-ASG25SO systemd[1]: Failed to start LSB: Hardware configuration with Device Tree overlays.

Jul 24 19:29:32 wirenboard-ASG25SO systemd[1]: wb-hwconf-manager.service: Unit entered failed state.

Jul 24 19:29:32 wirenboard-ASG25SO systemd[1]: wb-hwconf-manager.service: Failed with result ‘timeout’.

Команда service wb-hwconf-manager restart ни к чему не приводит.
Проблема, кстати, была раньше на другом контроллере (тоже WB6). Поменял на новый, все равно проблема периодически всплывает. Где-то на форуме кажется, видел, что нужно объединить нули контроллера, всех модулей и всех датчиков и выключателей - также не помогает.

Приветствую. Т.к. считаю что свою проблему поборол и нашел причину - вопрос: а контроллер не подключен ли к свитчу с POE?
У меня было именно так и по какой то причине тоже перезагружался контроллер, он был подключен к 24В БП, а также к свитчу с POE. Когда оставил только БП проблема решилась.

Интересное предположение, в жизни бы не подумал, что дополнительное питание через POE может привести к проблемам.
Но нет, у меня контроллер подключен к роутеру Keenetic Giga NK-1010, там POE, судя по документации, нет.

Очень похоже на скачок по питанию все же. Ignd и com модуля WBIO-DI-WD-14 не соединены случайно?

Проверил тестером, они прозваниваются. Судя по всему, это тяжелое наследие первой версии щита, когда там были отдельно две шины нулей для кнопок и устройств со входом открытый коллектор. Последние потом я отключил, а шины остались, так что после объединения нулей все, похоже, и стало друг на друга замкнуто.
Разъединил, проверю, будет ли проблема повторяться. Спасибо большое! А почему такое соединение может приводить к таким проблемам?

В основном потому что “нежные” контакты WBIO (интерфейс соединения боковых модулей) не рассчитаны на протекание импульсов тока. Могут вести себя непредсказуемо, подвисать. “Земли” - кнопок - это антенна, которая хорошо ловит любые наводки.
Но посмотрим, да.

WB6(c аккумулятором)+(WD8,WD14,HWD8,R10R4)+2 шины rs485. Проблема аналогичная. Но - контроллер поставлен вместо WD5 и там такого не было! При отключении боковых модулей ситуация не меняется, т.е. требуется передергивание питания. Контроллер был подключен через ups backup вместе с остальным оборудованием, и было предположение что это влияние переходов упса по питанию. Сейчас запитали WB6 напрямую, посмотрим. Если не поможет - изложу детально ситуацию с приложением логов…

Пока что разъединение Ignd и com модуля WBIO-DI-WD-14 помогло, за десять дней не зависло. Еще пару недель потестирую, но обычно так долго не работало.

Искать возможные наводки и причины проблем - это целое искусство. Здорово помогает опыт радиогубительства и наладки ЧПУ.

Рано обрадовался, к сожалению. Сегодня опять все зависло. Те же симптомы, " *Failed to start LSB: Hardware configuration with Device Tree overlays.".
Если попытаться запустить service wb-hwconf-manager restart, то подвисает (если в параллельном терминале запустить service wb-hwconf-manager status, то то видно, что инициализирует несколько модулей и перестает что-то делать. Если повторить restart, то уже инициализированные модули заново не подключает, а идет дальше и опять подвисает. В итоге если 20 раз так restart запустить, то вроде доходить до “Started LSB: Hardware configuration with Device Tree overlays.”, но все равно связи с моделями нет. После перезагрузки (без передёргивание по питанию модулей) опять же нормально wb-hwconf-manager не запускается с той же ошибкой.
Пока что единственный вариант - передергивать по питанию, но это дико неудобно . Куда дальше копать, какие логи смотреть? Почему не получается программно нужную службу перезапустить, с чем может быть связана необходимость передёргивания всего по питанию?

Дальше - все же крайне похоже что какой-то из модулей виснет аппаратно.
Советую для начала поставить их в таком порядке: WBIO-DI-WD-14, WBIO-DI-WD-14, WBIO-DO-R10A-8. Ну и в документации у нас так рекомендуется. И при следующем повисании - продиагностировать так:
Перезапуск. Неудача - отключаем и подключаем крайний модуль(3)
Есть место чтоб по рейке отодвинуть?
Опять перезапуск. Если неудачно - отключаем подключаем уже 2 модуля.
Если после отключения-подключения от контроллера модуля перезапустится служба удачно - виновник найден.
Если нет - то в конфигурации ставим модули “none” и пробуем перезапустить.

Обратил внимание, что в шапке неправильно указал набор контроллеров. Правильно сейчас так: WBIO-DO-R10R-4 (тот самый, в котором в параллельной теме оказалось, что пробило варистор), WBIO-DO-R10A-8 и WBIO-DI-WD-14. На днях привезут DO-R10R-4 на замену, может это проблему решит.

С последовательным отключением - идею понял, буду пробовать. Поменять порядок может быть проблематично, поскольку из-за косяков сборщиков щита (первую версию не сам собирал) может не хватить длины кабелей внутри щита, и наращивать их может быть проблематично (поэтому и установлены к неоптимальном порядке)). Но если ничего другого не поможет - буду так и действовать.