OPENCLAW 2026
CHROME_RELAY_
18792_HEALTH_
SSH_TUNNEL.
2026년 흔한 패턴: Telegram·웹훅·UI는 녹색인데 Chrome Relay만 적색이다. 원인은 Gateway가 아니라 로컬 Relay HTTP(예: 18792) 미기동·충돌·확장 미 attach 가 대부분이다. Gateway를 원격 Mac에 두면 노트북에서 curl 127.0.0.1:18792 전에 ssh -L 이 필요하다. 본문은증상→층→증거 표와 5단계 Runbook, 채널 무응답과의 분리를 정리한다. 참고: 토큰·LaunchAgent, WebSocket, SSH vs VNC.
1. Relay는 사이드카
Relay 모니터링이 Gateway와 분리되면 조용히 죽어도 모른다. 텔레그램 이중 폴링과 Relay 포트 충돌은 다른 문제다. 루프백이 어느 호스트에 있는지 문서화하지 않으면 원격 운영에서 반드시 꼬인다.
2. 증상 층 매트릭스
| 신호 | 층 | 증거 |
|---|---|---|
| 18792 거절 | Relay 프로세스 | 터널 후 curl -v |
| 200이지만 타임아웃 | 확장/탭 | attach 로그 |
| probe OK, Relay만 실패 | Relay 설정 | 대조 |
| 원격만 재현 | bind·SSH | FW |
3. 5단계 Runbook
포트·버전 고정 → curl 헬스 → 단일 리스너 → ssh -N -L → openclaw logs에서 relay/chrome 우선 필터.
각 단계마다 티켓에 명령 전체와 HTTP 코드, 타임스탬프를 붙이면 재발 분석이 쉬워진다. 특히 원격에서는「어느 터미널에서 curl 했는지」가 한 줄 메모만으로도 오진을 줄인다. 자동화 스크립트에 넣을 때는 실패 시 stderr 를 그대로 첨부하고, 성공 시에도 응답 본문 일부를 마스킹해 보관하는 습관을 권장한다.
launchd 또는 systemd 로 Relay 를 감싸는 경우, 재시작 정책(on-failure vs always)이 짧은 시간에 재기동 루프를 만들지 검증하라. 루프는 로그만 폭증시키고 근본 원인을 가린다. 지수 백오프나 최대 재시도 상한을 설정하는 것이 운영 친화적이다.
4. 채널 무응답과 분리
probe 성공·18792 실패면 Relay에 집중, 즉시 토큰 교환 금지. 18792 성공·채널 침묵이면 채널/Gateway로 복귀.
| 조합 | 다음 조치 | 금지 |
|---|---|---|
| 둘 다 실패 | 자식 티켓 2개로 분할 | 한 스레드에 로그 뒤섞기 |
| Relay만 간헐 실패 | Chrome 메모·탭 슬립 정책 점검 | 게이트웨이 무중단 재배포 |
운영 런북에「원격 호스트에서의 curl」과「노트북 루프백에서의 curl」을 구분 표기하면 신입 온콜도 같은 실수를 반복하지 않는다. 다이어그램은 ASCII 한 장이면 충분하다.
5. 사례
「터널 없이 노트에서 18792를 두드린 세 시간」
원격 mini의 Gateway는 안정적이었으나 브라우저 스킬 활성화 후 relay unreachable 다발. 업그레이드에 시간을 쓴 끝 원격 curl 200·노트북 거절로 원인 확정, ssh -L 문서화로 종료.
6. 산업 관점
DOM 스킬이 늘수록 Relay는 둘째 제어 평면이 된다. 전용 macOS 사용자나 MACGPU 원격 Apple Silicon에 고정 이미지를 두면 감사와 업그레이드 창이 명확해진다.
채널 가용성과 Relay 가용성을 동일 대시보드에 섞지 말고 별 KPI로 관리하라. 채널 프로브만 주간 리포트에 올라가면 Relay 사일런트 데스가 반복된다. 로그 파이프라인에서 relay·chrome 키워드를 선필터 태그로 고정하면 WebSocket 트레이스에 묻혀 사고 복구 시간이 늘어나는 것을 막을 수 있다.
기업 Chrome 정책으로 확장 사이드로드가 막히는 조직에서는 보안과 릴리스 엔지니어링이 사전에 패키징 경로를 합의해야 한다. 매번 엔지니어 노트북 프로필을 수작업으로 맞추는 대신 원격 Mac 단일 프로필에 Relay+브라우저 확장을 고정하면 OpenClaw 마이너 업 시 회귀 테스트 범위도 줄어든다.
원격 노드에서 브라우저 자동화를 24시간 돌릴 때는 절전·디스플레이 슬립이 Relay 타이밍을 깨는 경우가 많다. MACGPU 같이 상시 전원·냉각이 설계된 임대 Mac 풀에 워크로드를 두면 노트북 수면 정책과 분리되어 SLA를 맞추기 쉽다.
7. 게이트·임계값·FAQ
병합 전 18792 헬스 필수, 원격은 프로브 실행 호스트 다이어그램 첨부, Relay/Gateway 티켓 분리. p95 >2.5×면 스킬 릴리스 동결, EADDRINUSE 주 2회 이상이면 설정 감사, 로그 40% 이상이면 모니터링 분리. 포트 18792는 예시이며 설치 문서를 따른다. 0.0.0.0 공개는 인증·노출 평가 후에만 검토하고 생산에서는 SSH 또는 Tailscale 같은 좁은 경로를 권장한다.
장애 후 포스트모템에는「첫 curl 호스트」「SSH LocalForward 존재 여부」「Chrome 프로필 경로」를 필수 필드로 넣으면 유사 사건 검색이 빨라진다. 동일 패턴이 분기별로 반복되면 아키텍처 검토로 승격시켜야 한다. 문서 없는 트러블슈팅은 기술부채로 남는다.