2026 OPENCLAW
GATEWAY_
UP_
RPC_
DEAD.
После апгрейда на OpenClaw v2026.5.2 доминирующий режим отказа — не выход процесса, а: Gateway остаётся Active, пока /health, openclaw status и опрос Dashboard одновременно уходят в таймаут, sessions.list часто занимает 30–70 с, а CPU залипает на 95–100 %. Сообщества связывают это с transcript compaction, блокирующей event loop, усиленной крупными хранилищами сессий (сотни МБ, тысячи jsonl) и мульти-agent/Telegram-конфигурациями. Статья даёт матрицу симптомов, таблицу решений, шестишаговый runbook, три acceptance gate, кейс, отраслевые заметки, числовые пороги и FAQ, со ссылками на материалы о многоканальном JSONL-заморозке, invalid config и doctor --fix и устаревшем skillsSnapshot, чтобы проверить и откатить на удалённом эталонном узле Gateway Apple Silicon.
1. Болевые точки: «Active, но недоступен» ≠ «каналы молчат»
(1) HTTP-таймаут поверхности: процесс Gateway жив, порт 18789 слушает (lsof -i :18789), но curl /health и openclaw gateway status --deep --require-rpc превышают бюджет 10 с — ops часто путают с сетью или firewall. (2) Голодание RPC control plane: во время compaction sessions.list, cron.list и node.list скачут с субсекунд до 33–145 с; каждый WebSocket-вызов встаёт в очередь. (3) Другая корневая причина, чем раздувание JSONL: Bootstrap-freeze чаще от гигантских jsonl; регрессия 5.2 часто показывает 10–15 с синхронных stall compaction с event loop delay на десятки секунд. (4) Побочные эффекты миграции состояния: прыжок с 2026.4.24 на 5.2 может оставить state, замедляющий даже старые бинарники до очистки. (5) Удалённый Mac 7×24 усиливает: таймауты на ноутбуке маскируют reboot-хаками; прод-узел требует замороженного квадрупля версия – размер session store – окно compaction – сэмпл CPU перед изменениями.
2. Матрица решений: slim-down, downgrade или rollback?
| Сигнал | Первый шаг | Избегать |
|---|---|---|
| Таймаут /health + CPU >90 % + sessions.list >30 с | Пауза записей вне окна compaction → архив jsonl → временно отключить Telegram/memory search | Не rm -rf всего дерева sessions на пике |
| Только Dashboard медленный; CLI периодически ок | Снизить частоту poll; gateway restart --wait | Не править openclaw.json без бэкапа |
| Все каналы мертвы после апгрейда 5.2 | Pin на 2026.4.24; diff state-директорий | Не «фейковый апгрейд» только CLI |
| Одна гигантская agent-сессия | Архив jsonl/transcript по agent | Не смешивать с фиксами skillsSnapshot |
| Аудируемое прод-изменение | Сначала шесть шагов на удалённом эталоне | Не закрывать тикет без 30-мин окна проб |
3. Шестишаговый runbook
Шаг 1 Заморозить доказательства
Зафиксировать версию, uptime PID Gateway, du -sh по session-директориям, ключевые слова compaction в логах. Приложить последние 300 строк лога к тикету.
Шаг 2 Официальная диагностическая лестница
openclaw status → gateway status → doctor → channels status --probe. Если status сам в таймауте — подтвердить процесс/порт через ps/lsof до правок конфига.
Шаг 3 Послойный slim-down session store
Бэкап, затем архив jsonl выше порогов по agent. Цель: sessions.list ниже 3 с, не ноль файлов.
Шаг 4 Временная матрица downgrade функций
Переключать polling Telegram, memory search, Bonjour и т.д.; логировать CPU и RPC-латентность до/после каждого toggle для поиска bottleneck.
Шаг 5 Упорядоченный restart и RPC-пробы
openclaw gateway restart --force --wait, затем три замеренных вызова gateway status --deep --require-rpc. На launchd-хостах: launchctl kick -k и повторить.
Шаг 6 Удалённый эталон 7×24 и окно rollback
Повторить на эталонном Mac; сравнить P95 sessions.list. Если 5.2 всё ещё не проходит SLO — pin продакшена на 2026.4.24 до фикс-релиза. Требовать 30 минут зелёного /health и channel probes перед closure.
4. Три acceptance gate
Достижимость: /health три раза успешно быстрее 2 с. RPC: sessions.list три раза быстрее 5 с (10 с при документированно больших store). Каналы: probes зелёные 30 минут без рецидива таймаута.
5. Кейс: Dashboard серый, Telegram иногда отвечает
«Ops апгрейдили удалённый Mac Studio с 2026.4.24 на 2026.5.2; launchd показывал Gateway running, но каждый CLI-вызов зависал. node на 98 % CPU; в логах 12 с compaction stall; каталог sessions 545 МБ.»
SaaS on-call bot на арендованном удалённом Mac получил голодание control plane после апгрейда: Dashboard мёртв, openclaw status в таймауте, Telegram ещё отдавал sporadic-ответы по long-lived соединениям — почти ошибочно списано на слой каналов. Архив 380 МБ исторического jsonl и временное отключение memory search снизили CPU ниже 40 % и восстановили /health. Эталонный узел оставался на 2026.4.24 до созревания 5.2; change ticket запрещает пятничные peak-апгрейды.
Разделение с JSONL-материалом: переразмеренный jsonl тормозит bootstrap; compaction 5.2 замораживает работающий loop. Для stale skills — сначала runbook skillsSnapshot; reset-штормы во freeze только раздувают jsonl и ухудшают compaction.
6. Отраслевой взгляд: SLO control plane — планка 2026
Агенты compactят transcripts in-process — ops нужны окна compaction и RPC SLO (напр. sessions.list P95 <5 с). Заказчики требуют гистограммы latency /health и кривые session store, а не только строки версий. Урок: Active ≠ Healthy. Кластеры удалённых Mac должны держать golden reference на rollback-friendly pin.
Windows/Linux gateways ловят те же stall с другими service manager. Для multimedia Agent workflow и 24/7 выделенной памяти многие команды по-прежнему выбирают удалённый Apple Silicon Mac как golden environment. Чтобы отрепетировать регрессию 5.2, slim-down и rollback на изолированном snapshot-friendly узле, арендуйте MACGPU удалённый Mac: пройдите шестишаговый runbook и 30-минутные пробы на эталонном железе до продакшена — RPC-латентность с обеих сторон убеждает команду и аудит.
7. Числовые пороги
(1) Sessions по agent >200 МБ и sessions.list >10 с: архивировать до апгрейда. (2) Три провала /health дольше 2 с: пометить Unhealthy. (3) event loop delay >5000 ms в логах compaction: окно изменений; без параллельных skill install. (4) RPC-пробы падают 30 мин после апгрейда 5.2: rollback по умолчанию на 2026.4.24. (5) Расхождение версий между удалённым эталоном и продом: блокировать merge конфигов.
8. FAQ
Отличие от generic «нет ответа»? Часто auth/канальный слой; здесь control plane в таймауте при забитой CPU. Restart без slim-down? Только кратковременное облегчение на больших store. Docker? Та же логика; учитывайте volume I/O. Обязателен rollback на 4.24? По вашему RPC SLO. Роль MACGPU? Эталонная приёмка и окна rollback — не замена вашему change approval.