Аппаратная проблема контроллера?

Контроллер стал исчезать, иногда надолго, после сброса питания появляется, и опять исчезает. Думал, - БП, заменили на другой, поведение не изменилось. В логах это выглядит, как аппаратная проблема процессора/памяти:

Jun 23 10:14:54 wirenboard-ARCMHA5M daemon.info ntpd[763]: Soliciting pool server 2a0d:8340:24::2
Jun 23 10:14:54 wirenboard-ARCMHA5M user.warn kernel: [ 7740.108878] warn_alloc: 757 callbacks suppressed
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.113521] hostapd: page allocation failure: order:0, mode:0x2080020(GFP_ATOMIC)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.121049] CPU: 0 PID: 844 Comm: hostapd Tainted: G C 4.9.22-wb6 #2
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.128533] Hardware name: Freescale i.MX6 Ultralite (Device Tree)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.134747] [] (unwind_backtrace) from [] (show_stack+0x10/0x14)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.142506] [] (show_stack) from [] (dump_stack+0x8c/0xa8)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.149744] [] (dump_stack) from [] (warn_alloc+0xf0/0x118)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.157068] [] (warn_alloc) from [] (__alloc_pages_nodemask+0x2cc/0xba8)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.165521] [] (__alloc_pages_nodemask) from [] (__alloc_page_frag+0x14c/0x180)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.174580] [] (__alloc_page_frag) from [] (__netdev_alloc_skb+0xa0/0x108)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.183693] [] (__netdev_alloc_skb) from [] (_rtw_skb_alloc+0x38/0x48 [8723bu])
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.193408] [] (_rtw_skb_alloc [8723bu]) from [] (rtw_os_alloc_recvframe+0x3c/0xdc [8723bu])
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.204164] [] (rtw_os_alloc_recvframe [8723bu]) from [] (rtl8723bu_recv_tasklet+0x2d0/0x3e0 [8723bu])
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.215502] [] (rtl8723bu_recv_tasklet [8723bu]) from [] (tasklet_action+0x8c/0x128)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.224999] [] (tasklet_action) from [] (__do_softirq+0xa4/0x208)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.232841] [] (__do_softirq) from [] (irq_exit+0xc4/0x140)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.240161] [] (irq_exit) from [] (__handle_domain_irq+0x58/0xb8)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.248002] [] (__handle_domain_irq) from [] (gic_handle_irq+0x54/0xb8)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.256364] [] (gic_handle_irq) from [] (__irq_svc+0x6c/0x90)
Jun 23 10:14:55 wirenboard-ARCMHA5M user.warn kernel: [ 7740.263851] Exception stack(0xdaf8fad0 to 0xdaf8fb18)

И дальше все в таком духе, - с разной частотой.
Что делать? В ремонт?..
wblog.txt (113.4 КБ)

Добрый день.
Вижу только неудачное выделение памяти. Что-то течет?

Судя по версии ядра - это еще дорелизное ПО, советую обновить его, актуальный релиз 2204.
Ну и проверьте что ест память.

Контроллер в продакшене, - боюсь обновлять с учетом массы устройств… Дома у себя обновлял, устал восстанавливать конфиги много-много раз ))

Память - похоже ее ест mosquitto. Одно только непонятно. Контроллер и его окружение никто не трогал много месяцев - и ВДРУГ 16 июня это все началось. После перезагрузки держится несколько часов, - и опять “это”.

Посмотрите размер файла /var/lib/mosquitto/*

Поменяйте в /etc/mosquitto/mosquitto.conf
persistence true
на

persistence false

И перезапустите mosquitto (лучше контроллер)

Ну и файл из /var/lib/mosquitto/ можно удалить.
И, как и говорил - неплохо обновить ПО.