Отвалился модем 4G

Наблюдали сегодня такую же ситуацию, через 11 минут после загрузки модем отвалился и не поднялся. До этого момента он успел несколько раз “кувыркнуться”, пропадая и появляясь снова. Логи на момент фатального случая:

Oct 18 16:04:26 potok24000062 user.info kernel: [  380.306314] usb 2-1.3: USB disconnect, device number 5
Oct 18 16:04:26 potok24000062 user.info kernel: [  380.314150] rndis_host 2-1.3:1.0 usb0: unregister 'rndis_host' usb-ci_hdrc.1-1.3, RNDIS device
Oct 18 16:04:26 potok24000062 daemon.err dhclient[3634]: receive_packet failed on usb0: Network is down
Oct 18 16:04:26 potok24000062 user.info kernel: [  380.358473] option1 ttyUSB0: GSM modem (1-port) converter now disconnected from ttyUSB0
Oct 18 16:04:26 potok24000062 user.info kernel: [  380.436575] option 2-1.3:1.2: device disconnected
Oct 18 16:04:26 potok24000062 user.info kernel: [  380.482189] option1 ttyUSB1: GSM modem (1-port) converter now disconnected from ttyUSB1
Oct 18 16:04:26 potok24000062 user.info kernel: [  380.541689] option 2-1.3:1.4: device disconnected
Oct 18 16:04:26 potok24000062 user.info kernel: [  380.592120] option1 ttyUSB2: GSM modem (1-port) converter now disconnected from ttyUSB2
Oct 18 16:04:27 potok24000062 user.info kernel: [  380.652177] option 2-1.3:1.5: device disconnected
Oct 18 16:04:27 potok24000062 daemon.info dhclient[4355]: Killed old client process
Oct 18 16:04:27 potok24000062 user.info kernel: [  381.374856] usb 2-1.3: new high-speed USB device number 6 using ci_hdrc
Oct 18 16:04:27 potok24000062 daemon.info ntpd[2134]: Deleting interface #4 usb0, 192.168.0.100#123, interface stats: received=147, sent=166, dropped=1, active_time=177 secs
Oct 18 16:04:27 potok24000062 daemon.info ntpd[2134]: 188.130.255.103 local addr 192.168.0.100 -> <null>
Oct 18 16:04:27 potok24000062 daemon.info ntpd[2134]: 85.21.78.23 local addr 192.168.0.100 -> <null>
Oct 18 16:04:27 potok24000062 daemon.info ntpd[2134]: Deleting interface #6 usb0, fe80::60aa:76ff:fecc:84e0%7#123, interface stats: received=0, sent=0, dropped=0, active_time=175 secs
Oct 18 16:04:27 potok24000062 user.info kernel: [  381.544244] usb 2-1.3: New USB device found, idVendor=1286, idProduct=812a
Oct 18 16:04:27 potok24000062 user.info kernel: [  381.551334] usb 2-1.3: New USB device strings: Mfr=3, Product=2, SerialNumber=0
Oct 18 16:04:27 potok24000062 user.info kernel: [  381.558782] usb 2-1.3: Product: WUKONG
Oct 18 16:04:27 potok24000062 user.info kernel: [  381.562550] usb 2-1.3: Manufacturer: MARVELL
Oct 18 16:04:28 potok24000062 user.info kernel: [  381.842540] usb 2-1.3: USB disconnect, device number 6
Oct 18 16:04:28 potok24000062 daemon.info dhclient[4355]: Internet Systems Consortium DHCP Client 4.3.5
Oct 18 16:04:28 potok24000062 daemon.info dhclient[4355]: Copyright 2004-2016 Internet Systems Consortium.
Oct 18 16:04:28 potok24000062 daemon.info dhclient[4355]: All rights reserved.
Oct 18 16:04:28 potok24000062 daemon.info dhclient[4355]: For info, please visit https://www.isc.org/software/dhcp/
Oct 18 16:04:28 potok24000062 daemon.info dhclient[4355]: 
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: Failed to get interface index: No such device
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: 
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: If you think you have received this message due to a bug rather
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: than a configuration issue please read the section on submitting
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: bugs on either our web page at www.isc.org or in the README file
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: before submitting a bug.  These pages explain the proper
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: process and the information we find helpful for debugging..
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: 
Oct 18 16:04:28 potok24000062 daemon.err dhclient[4355]: exiting.
Oct 18 16:04:34 potok24000062 user.info kernel: [  388.284770] usb 2-1.3: new high-speed USB device number 7 using ci_hdrc
Oct 18 16:04:34 potok24000062 user.warn kernel: [  388.440436] usb 2-1.3: config 1 has an invalid interface number: 5 but max is 4
Oct 18 16:04:34 potok24000062 user.warn kernel: [  388.447963] usb 2-1.3: config 1 has no interface number 3
Oct 18 16:04:34 potok24000062 user.info kernel: [  388.476189] usb 2-1.3: New USB device found, idVendor=1e0e, idProduct=9011
Oct 18 16:04:34 potok24000062 user.info kernel: [  388.483157] usb 2-1.3: New USB device strings: Mfr=1, Product=2, SerialNumber=3
Oct 18 16:04:34 potok24000062 user.info kernel: [  388.490673] usb 2-1.3: Product: Mobile Composite Device Bus
Oct 18 16:04:34 potok24000062 user.info kernel: [  388.496311] usb 2-1.3: Manufacturer: Marvell
Oct 18 16:04:34 potok24000062 user.info kernel: [  388.500597] usb 2-1.3: SerialNumber: 200806006809080000
Oct 18 16:04:34 potok24000062 user.err kernel: [  388.522931] usb 2-1.3: can't set config #1, error -71
root@potok24000062:~# cat /etc/wb-fw-version 
202102010122
root@potok24000062:~# uname -a
Linux potok24000062 4.9.22-wb6 #2 SMP Wed Dec 9 16:55:10 UTC 2020 armv7l GNU/Linux
# 4G/LTE MODEM:
auto usb0
allow-hotplug usb0
iface usb0 inet dhcp
  # for beeline:
  #apn internet.beeline.ru
  # for megafon:
  #apn internet
  # for mts:
  #apn internet.mts.ru
  pre-up wb-gsm restart_if_broken
  pre-up /usr/sbin/chat -s TIMEOUT 20 ABORT "ERROR" ECHO ON "" "AAAAAAAAAAAAAT" OK "AT+CPIN?" OK "AT+CMGF=1" OK "AT+DIALMODE=0" OK "AT+CGDCONT=1,\"IP\",\"${IF_APN:-internet}\"" OK  "AT+CGCONTRDP" "OK"  > /dev/ttyGSM < /dev/ttyGSM
  pre-up sleep 10

На сколько безопасно вызывать по крону wb-gsm restart_if_broken? устройства с новым модулем уже начали увозить на объекты, ситуация печальная. На 2g/3g по ppp у меня pppd долбил по кругу без остановок, каждый раз ресетя модем, это была довольно устойчивая к проблемам схема.

Добрый день! Должно быть достаточно безопасно. А что дальше произошло? Если положить вручную интерфейс usb0 и вручную запустить wb-gsm restart_if_broken, то что будет?

А от чего (от какого БП) питается контроллер? Не может ли быть что питания мало?

Ложить интерфейс не пробовал. Можем попробовать взять пустой контроллер, дождаться ошибки и поиграться.
wb-gsm reset ни к чему не привел
wb-gsm restart_if_broken - интерфейс поднялся

Уточнил по БП - MeanWill на din-рейку, 1.25А

А на самом контроллере напряжение питания в истории - не скачет? Но, хотя да - перезапускался бы, если настолько проседает.

Хочу обратить внимание, что контроллер в состоянии “получили на склад с производства”, до последних версий не обновлялись еще (нужно оттестировать что у нас ничего не будет ломаться)

После актуального релиза были правки в wb-utils, как раз в скрипт управаления модемом. Но там был исправлен запуск.