Фриз контроллера

Добрый день! Нашли контроллер с похожей проблемой (другой)
Контроллер горел красным не моргая.

Прикладываю логи:

приложен диагностический архив, доступен только сотрудникам поддержки
(329,6 КБ)

log.txt.zip (4,6 МБ)

Он корректно перезагружался каждую ночь (по нашему графику), но потом завис 29 Июля.


 last -x shutdown
shutdown system down  5.10.35-wb175    Tue Jul 29 22:33 - 12:17 (61+13:43)
shutdown system down  5.10.35-wb175    Mon Jul 28 22:33 - 22:40  (00:06)
shutdown system down  5.10.35-wb175    Mon Jul 28 08:43 - 08:52  (00:09)
shutdown system down  5.10.35-wb175    Mon Jul 28 05:56 - 06:13  (00:17)
shutdown system down  5.10.35-wb175    Sun Jul 27 23:57 - 00:12  (00:15)
shutdown system down  5.10.35-wb175    Sun Jul 27 11:20 - 11:29  (00:09)
shutdown system down  5.10.35-wb175    Sat Jul 26 15:10 - 15:54  (00:43)
shutdown system down  5.10.35-wb175    Sat Jul 26 02:08 - 02:19  (00:11)
shutdown system down  5.10.35-wb175    Fri Jul 25 19:23 - 19:37  (00:13)
shutdown system down  5.10.35-wb175    Fri Jul 25 17:33 - 17:48  (00:15)
shutdown system down  5.10.35-wb175    Fri Jul 25 11:09 - 11:28  (00:19)
shutdown system down  5.10.35-wb175    Fri Jul 25 09:30 - 09:39  (00:09)

Судя по логу он абсолютно нормально начал перезагружаться по расписанию, выключиться - выключился, но не включился.

Jul 29 22:33:19 IQ668000 systemd[1]: systemd-update-utmp.service: Succeeded.
Jul 29 22:33:19 IQ668000 systemd[1]: Stopped Update UTMP about System Boot/Shutdown.
Jul 29 22:33:19 IQ668000 systemd[1]: systemd-tmpfiles-setup.service: Succeeded.
Jul 29 22:33:19 IQ668000 systemd[1]: Stopped Create Volatile Files and Directories.
Jul 29 22:33:19 IQ668000 systemd[1]: Stopping Flush Journal to Persistent Storage...
-- Boot d55a5018f4c6453fa8626026453f2633 --
Sep 29 12:17:18 IQ668000 kernel: Booting Linux on physical CPU 0x0

Добрый день!

Рекомендую выполнить следующие действия:

  1. исправьте lsyncd в /etc/lsyncd/lsyncd.conf.lua (ошибка на 21-й строке)
  2. проверьте блок питания и кабели — сбои при старте могут быть связаны с падением напряжения
  3. проверьте флеш-накопитель (dmesg | grep mmc после старта) — возможны битые сектора
  4. отключите ночные выключения/перезагрузки и проверьте, зависнет ли контроллер
  5. если повторится ситуация с красным светодиодом и отсутствием загрузки — снимите лог с дебаг-консоли
  6. проверьте устройства на шине, так как часто встречаются ошибки чтения и таймауты устройств

Доброе утрое!

Но он же должен был перезагрузиться по аппаратному вочдогу. Или нет?

Добрый день!

Перезагрузка будет в случае, если счётчик переполнится — только тогда произойдёт перезапуск.
Нужно проверить и исключить указанные выше факторы и попытаться зафиксировать такое же зависание. Пока не могу дать чёткий ответ, почему это происходит.

Добрый день,
Удалось ли решить вопрос?

Контроллер не близко, сняли с объекта, в доставке в офис.
Ошибка в lsyncd была и на других контроллерах, к поломке не приводила. Я бы это исключил.
Другие пункты сможем проверить позже.

Обнаружили еще один такой контроллер. Не работал 5 дней.
Включили нажав кнопку.
Прилагаю полный лог журнала.
all.txt.zip (2,6 МБ)у

Добрый день.
Пока я вижу штатное выключение, в общем.

предполагаю похожее на Wiren Board 7: Errata — Wiren Board
Ну и рекомендация - обновить FW.

FW обновили, не помогло. Заменили БП, последим сутки, напишу по результату.

А обновили именно на этом контроллере?
Какой командой контроллер перезапускается?

Я сильно сомневаюсь что дело в БП. Разве что он при падении нагрузки начинает себя странно вести.
А какие-либо светодиоды светятся на выключенном контроллере? Вообще если подобное поведение именно на этом стабильно воспроизводится - то лучше всего получить вывод из Debug port, думаю. Ну и, если хорошо воспроизводится - дайте с него диагностический архив пожалуйста.

1 лайк

До обновления FW контроллер находили в висячем состоянии, потом FW обновили до 2.1 вроде (самая актуальная на тот момент, недели две назад обновляли).
Контроллер все равно пропадал, но не зависал не мигая, а просто перезагружался. Правда времени прошло мало, зависал он в выключенном положении очень не часто.

Позавчера поменяли БП, полет нормальный, аптайм больше суток, как и должно быть.

Возможно на старом FW при просадке напряжения что-то случается с аппаратным вочдогом. Может быть с обновлением не связано, мы мало тестировали на новом FW и старом БП. Может это не вообще не связанные вещи, сложно сказать.