Зависает консоль

WirenBoard5 та же проблема с зависанием: ssh висит, веб не отвечает. Но видно по индикации, что modbus датчики работают (получают запросы с wb и отвечают на них)

Через консоль с uart удалось увидеть следующее:

[74752.430157]       Tainted: G         C     3.19.0-imxv5-x0.1 #520
[74752.436264] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[74752.444169] ip              D c03f87f8     0 29469  29462 0x00000000
[74752.450683] [<c03f87f8>] (__schedule) from [<c03f8e1c>] (schedule_preempt_disabled+0xc/0x10)
[74752.459244] [<c03f8e1c>] (schedule_preempt_disabled) from [<c03fa0b4>] (__mutex_lock_slowpath+0x5c/0xb4)
[74752.468844] [<c03fa0b4>] (__mutex_lock_slowpath) from [<c033e440>] (rtnetlink_rcv+0x10/0x2c)
[74752.477409] [<c033e440>] (rtnetlink_rcv) from [<c034b7c8>] (netlink_unicast+0x10c/0x1c8)
[74752.485545] [<c034b7c8>] (netlink_unicast) from [<c034bc04>] (netlink_sendmsg+0x2b8/0x598)
[74752.493926] [<c034bc04>] (netlink_sendmsg) from [<c03189b8>] (do_sock_sendmsg+0xbc/0xd8)
[74752.502169] [<c03189b8>] (do_sock_sendmsg) from [<c031aa2c>] (SyS_sendto+0xc4/0xf4)
[74752.509950] [<c031aa2c>] (SyS_sendto) from [<c031aa74>] (SyS_send+0x18/0x20)
[74752.517113] [<c031aa74>] (SyS_send) from [<c000ee60>] (ret_fast_syscall+0x0/0x30)
[74872.502270] INFO: task ntpd:2676 blocked for more than 120 seconds.
[74872.508641]       Tainted: G         C     3.19.0-imxv5-x0.1 #520
[74872.514855] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[74872.522777] ntpd            D c03f87f8     0  2676      1 0x00000001
[74872.529281] [<c03f87f8>] (__schedule) from [<c03f8e1c>] (schedule_preempt_disabled+0xc/0x10)
[74872.537854] [<c03f8e1c>] (schedule_preempt_disabled) from [<c03fa0b4>] (__mutex_lock_slowpath+0x5c/0xb4)
[74872.547466] [<c03fa0b4>] (__mutex_lock_slowpath) from [<c0343998>] (dev_ioctl+0x574/0x834)
[74872.555892] [<c0343998>] (dev_ioctl) from [<c00bf72c>] (do_vfs_ioctl+0x3a8/0x5a8)
[74872.563513] [<c00bf72c>] (do_vfs_ioctl) from [<c00bf960>] (SyS_ioctl+0x34/0x5c)
[74872.570871] [<c00bf960>] (SyS_ioctl) from [<c000ee60>] (ret_fast_syscall+0x0/0x30)
[74872.578597] INFO: task zabbix_agentd:3001 blocked for more than 120 seconds.
[74872.585773]       Tainted: G         C     3.19.0-imxv5-x0.1 #520
[74872.591926] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[74872.599857] zabbix_agentd   D c03f87f8     0  3001   2998 0x00000000
[74872.606372] [<c03f87f8>] (__schedule) from [<c03f8e1c>] (schedule_preempt_disabled+0xc/0x10)
[74872.614948] [<c03f8e1c>] (schedule_preempt_disabled) from [<c03fa0b4>] (__mutex_lock_slowpath+0x5c/0xb4)
[74872.624553] [<c03fa0b4>] (__mutex_lock_slowpath) from [<c033e440>] (rtnetlink_rcv+0x10/0x2c)
[74872.633147] [<c033e440>] (rtnetlink_rcv) from [<c034b7c8>] (netlink_unicast+0x10c/0x1c8)
[74872.641285] [<c034b7c8>] (netlink_unicast) from [<c034bc04>] (netlink_sendmsg+0x2b8/0x598)
[74872.649707] [<c034bc04>] (netlink_sendmsg) from [<c03189b8>] (do_sock_sendmsg+0xbc/0xd8)
[74872.657951] [<c03189b8>] (do_sock_sendmsg) from [<c031aa2c>] (SyS_sendto+0xc4/0xf4)
[74872.665740] [<c031aa2c>] (SyS_sendto) from [<c000ee60>] (ret_fast_syscall+0x0/0x30)

вот SysRq : Show Memory

[236989.978685] SysRq : Show Memory
[236989.981966] Mem-info:
[236989.984340] Normal per-cpu:
[236989.987233] CPU    0: hi:   42, btch:   7 usd:   5
[236989.992152] active_anon:3920 inactive_anon:5496 isolated_anon:4294967294
[236989.992152]  active_file:7582 inactive_file:6929 isolated_file:4294967277
[236989.992152]  unevictable:0 dirty:5 writeback:0 unstable:0
[236989.992152]  free:581 slab_reclaimable:926 slab_unreclaimable:1453
[236989.992152]  mapped:2181 shmem:117 pagetables:384 bounce:0
[236989.992152]  free_cma:0
[236990.025682] Normal free:2324kB min:1404kB low:1752kB high:2104kB active_anon:15680kB inactive_anon:21984kB active_file:30328kB inactive_file:27716kB unevictable:0kB isolated(anon):4294967288kB isolated(file):4294967220kB present:131072kB managed:123672kB mlocked:0kB dirty:20kB writeback:0kB mapped:8724kB shmem:468kB slab_reclaimable:3704kB slab_unreclaimable:5812kB kernel_stack:952kB pagetables:1536kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no
[236990.069359] lowmem_reserve[]: 0 0
[236990.072779] Normal: 391*4kB (UEM) 47*8kB (UMR) 6*16kB (MR) 3*32kB (MR) 1*64kB (R) 1*128kB (R) 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 2324kB
[236990.086043] 14629 total pagecache pages
[236990.089971] 0 pages in swap cache
[236990.093377] Swap cache stats: add 0, delete 0, find 0/0
[236990.098687] Free swap  = 262140kB
[236990.102087] Total swap = 262140kB
[236990.113251] 32768 pages of RAM
[236990.116398] 867 free pages
[236990.119190] 1850 reserved pages
[236990.122416] 1784 slab pages
[236990.125295] 284375 pages shared
[236990.128522] 0 pages swap cached

Добрый день,

  1. Включен ли wi-fi?
  2. ssh/web недоступен по wi-fi или ethernet?
  3. можете ли вы залогиниться через uart на WB, когда она в таком состоянии?
  4. пингуется ли WB по ip?

1 - wifi не заблочен, но и не используется (пока).
2 - вся работа с ssh и веб идет через провод.
3 - нет, система реагирует только на SysRq.
4 - да.

прошивку залил 201601221348_webupd_wb5 - не спасло.

Пришлите логи из UART целиком в случае зависания.
Вы умеете воспроизводить проблему? Нужно попробовать без zabbix_agentd и с выключенным wifi (на аппаратном уровне).
У меня пока идеи две: драйвер wifi даёт какой-то сбой, из-за чего ядро начинает себя странно вести, или это фрагментация памяти из-за zabbix_agent.

Воспроизвести не могу, wb отваливается произвольно.
Выключить wifi нужно так как описывал ags?

Надо создать /etc/modprobe.d/r8188eu.conf
В нём: blacklist r8188eu

и это нормально, что в /etc/udev/rules.d/70-persistent-net.rules сетевой интерфейс определился как

# Unknown net device (/devices/soc0/80080000.ahb/800f0000.ethernet/net/eth0) (fec)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:04:00:00:00:00", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
  1. Да, только blacklist 8723bu

Можно вообще по питанию выключить, как описано тут: http://contactless.ru/wiki/index.php/Питание_USB-портов

  1. эта строчка про проводной ethernet. Да, нормально, работает же всё.

Словили у себя, есть основания полагать, что виноват всё-таки драйвер Wi-Fi. Решением видимо будет watchdog , который вызовет в таких ситуациях перезагрузку.

Не могу подтвердить, wifi я выключил по питанию, забикс оставил - плата зависла часа через 2.
$ hubpower 2:1 power 1 off

Теперь удалил и забикс, жду. Но для меня критично чтоб забикс работал.

Два часа - это конечно очень интересно, у себя мы поймали единственный раз на несклольких контроллерах за месяц. Можно попробовать ещё новое ядро 4.2, целиком обновиться можно тут: https://github.com/contactless/wirenboard/releases/tag/0.18-20160209

Похоже вы были правы, идем на рекордный аптайм после отключения wifi ($ hubpower 2:1 power 1 off) при работающем zabbix агенте. Прошлый раз не учли повторного включения wifi при перезагрузки.

Сообщение перенесено в новую тему: Беспокоит информация в логах