2026 OPENCLAW
GATEWAY_
UP_
RPC_
DEAD.

Абстракция control-plane и мониторинга шлюза

После апгрейда на OpenClaw v2026.5.2 доминирующий режим отказа — не выход процесса, а: Gateway остаётся Active, пока /health, openclaw status и опрос Dashboard одновременно уходят в таймаут, sessions.list часто занимает 30–70 с, а CPU залипает на 95–100 %. Сообщества связывают это с transcript compaction, блокирующей event loop, усиленной крупными хранилищами сессий (сотни МБ, тысячи jsonl) и мульти-agent/Telegram-конфигурациями. Статья даёт матрицу симптомов, таблицу решений, шестишаговый runbook, три acceptance gate, кейс, отраслевые заметки, числовые пороги и FAQ, со ссылками на материалы о многоканальном JSONL-заморозке, invalid config и doctor --fix и устаревшем skillsSnapshot, чтобы проверить и откатить на удалённом эталонном узле Gateway Apple Silicon.

1. Болевые точки: «Active, но недоступен» ≠ «каналы молчат»

(1) HTTP-таймаут поверхности: процесс Gateway жив, порт 18789 слушает (lsof -i :18789), но curl /health и openclaw gateway status --deep --require-rpc превышают бюджет 10 с — ops часто путают с сетью или firewall. (2) Голодание RPC control plane: во время compaction sessions.list, cron.list и node.list скачут с субсекунд до 33–145 с; каждый WebSocket-вызов встаёт в очередь. (3) Другая корневая причина, чем раздувание JSONL: Bootstrap-freeze чаще от гигантских jsonl; регрессия 5.2 часто показывает 10–15 с синхронных stall compaction с event loop delay на десятки секунд. (4) Побочные эффекты миграции состояния: прыжок с 2026.4.24 на 5.2 может оставить state, замедляющий даже старые бинарники до очистки. (5) Удалённый Mac 7×24 усиливает: таймауты на ноутбуке маскируют reboot-хаками; прод-узел требует замороженного квадрупля версия – размер session store – окно compaction – сэмпл CPU перед изменениями.

2. Матрица решений: slim-down, downgrade или rollback?

СигналПервый шагИзбегать
Таймаут /health + CPU >90 % + sessions.list >30 сПауза записей вне окна compaction → архив jsonl → временно отключить Telegram/memory searchНе rm -rf всего дерева sessions на пике
Только Dashboard медленный; CLI периодически окСнизить частоту poll; gateway restart --waitНе править openclaw.json без бэкапа
Все каналы мертвы после апгрейда 5.2Pin на 2026.4.24; diff state-директорийНе «фейковый апгрейд» только CLI
Одна гигантская agent-сессияАрхив jsonl/transcript по agentНе смешивать с фиксами skillsSnapshot
Аудируемое прод-изменениеСначала шесть шагов на удалённом эталонеНе закрывать тикет без 30-мин окна проб

3. Шестишаговый runbook

Шаг 1 Заморозить доказательства

Зафиксировать версию, uptime PID Gateway, du -sh по session-директориям, ключевые слова compaction в логах. Приложить последние 300 строк лога к тикету.

Шаг 2 Официальная диагностическая лестница

openclaw statusgateway statusdoctorchannels status --probe. Если status сам в таймауте — подтвердить процесс/порт через ps/lsof до правок конфига.

Шаг 3 Послойный slim-down session store

Бэкап, затем архив jsonl выше порогов по agent. Цель: sessions.list ниже 3 с, не ноль файлов.

Шаг 4 Временная матрица downgrade функций

Переключать polling Telegram, memory search, Bonjour и т.д.; логировать CPU и RPC-латентность до/после каждого toggle для поиска bottleneck.

Шаг 5 Упорядоченный restart и RPC-пробы

openclaw gateway restart --force --wait, затем три замеренных вызова gateway status --deep --require-rpc. На launchd-хостах: launchctl kick -k и повторить.

Шаг 6 Удалённый эталон 7×24 и окно rollback

Повторить на эталонном Mac; сравнить P95 sessions.list. Если 5.2 всё ещё не проходит SLO — pin продакшена на 2026.4.24 до фикс-релиза. Требовать 30 минут зелёного /health и channel probes перед closure.

du -sh ~/.openclaw/agents/*/sessions 2>/dev/null find ~/.openclaw/agents -name '*.jsonl' -size +20M 2>/dev/null | head time openclaw gateway status --deep --require-rpc for i in 1 2 3; do curl -m 5 -sS http://127.0.0.1:18789/health || echo "health fail $i"; sleep 2; done openclaw gateway restart --force --wait

4. Три acceptance gate

Достижимость: /health три раза успешно быстрее 2 с. RPC: sessions.list три раза быстрее 5 с (10 с при документированно больших store). Каналы: probes зелёные 30 минут без рецидива таймаута.

5. Кейс: Dashboard серый, Telegram иногда отвечает

«Ops апгрейдили удалённый Mac Studio с 2026.4.24 на 2026.5.2; launchd показывал Gateway running, но каждый CLI-вызов зависал. node на 98 % CPU; в логах 12 с compaction stall; каталог sessions 545 МБ.»

SaaS on-call bot на арендованном удалённом Mac получил голодание control plane после апгрейда: Dashboard мёртв, openclaw status в таймауте, Telegram ещё отдавал sporadic-ответы по long-lived соединениям — почти ошибочно списано на слой каналов. Архив 380 МБ исторического jsonl и временное отключение memory search снизили CPU ниже 40 % и восстановили /health. Эталонный узел оставался на 2026.4.24 до созревания 5.2; change ticket запрещает пятничные peak-апгрейды.

Разделение с JSONL-материалом: переразмеренный jsonl тормозит bootstrap; compaction 5.2 замораживает работающий loop. Для stale skills — сначала runbook skillsSnapshot; reset-штормы во freeze только раздувают jsonl и ухудшают compaction.

6. Отраслевой взгляд: SLO control plane — планка 2026

Агенты compactят transcripts in-process — ops нужны окна compaction и RPC SLO (напр. sessions.list P95 <5 с). Заказчики требуют гистограммы latency /health и кривые session store, а не только строки версий. Урок: Active ≠ Healthy. Кластеры удалённых Mac должны держать golden reference на rollback-friendly pin.

Windows/Linux gateways ловят те же stall с другими service manager. Для multimedia Agent workflow и 24/7 выделенной памяти многие команды по-прежнему выбирают удалённый Apple Silicon Mac как golden environment. Чтобы отрепетировать регрессию 5.2, slim-down и rollback на изолированном snapshot-friendly узле, арендуйте MACGPU удалённый Mac: пройдите шестишаговый runbook и 30-минутные пробы на эталонном железе до продакшена — RPC-латентность с обеих сторон убеждает команду и аудит.

7. Числовые пороги

(1) Sessions по agent >200 МБ и sessions.list >10 с: архивировать до апгрейда. (2) Три провала /health дольше 2 с: пометить Unhealthy. (3) event loop delay >5000 ms в логах compaction: окно изменений; без параллельных skill install. (4) RPC-пробы падают 30 мин после апгрейда 5.2: rollback по умолчанию на 2026.4.24. (5) Расхождение версий между удалённым эталоном и продом: блокировать merge конфигов.

8. FAQ

Отличие от generic «нет ответа»? Часто auth/канальный слой; здесь control plane в таймауте при забитой CPU. Restart без slim-down? Только кратковременное облегчение на больших store. Docker? Та же логика; учитывайте volume I/O. Обязателен rollback на 4.24? По вашему RPC SLO. Роль MACGPU? Эталонная приёмка и окна rollback — не замена вашему change approval.