1. 통증 분해: 연결 표시는 건강이 아니다
(1) 채널 온라인 vs Gateway 건강: WebSocket이나 소켓 모드가 살아 있어도 프로세스가 멈췄거나 모델 라우팅이 실패하거나 도구가 조용히 타임아웃할 수 있습니다. 사용자에게는 그저 무대응입니다. (2) CLI와 launchd/systemd가 다른 설정을 읽음: 터미널에서 고친 openclaw.json이 데몬 환경이나 작업 디렉터리에 전달되지 않습니다. (3) 업그레이드로 정책 강화: gateway.bind, gateway.auth, 원격 URL 검증이 빡세지고 페어링 상태가 비워질 수 있어 devices list, pairing list를 다시 봐야 합니다.
취미라면 재부팅으로 넘길 수 있어도 CS·운영 자동화에서는 침묵이 SLA 사고로 직결됩니다. 온콜 런북에 사다리를 박아 두는 비용이 사후 보고서보다 쌉니다. 설정을 건드리기 전에 사다리부터—2026년 소규모 팀에 가장 싼 SRE 규율입니다.
2. 진단 사다리: 명령마다 증명하는 것
| 명령 | 알 수 있는 것 | 전형적 적색 신호 |
|---|---|---|
openclaw status |
CLI가 보는 Gateway 모드, 로컬/원격, 거친 건강 상태 | 실제는 원격인데 로컬로 표시, healthy=false인데 이유 불명 |
openclaw gateway status |
프로세스, 리슨 주소, 최근 재시작 이유 | 포트 충돌, 크래시 루프, bind 권한 |
openclaw logs --follow (또는 문서 경로) |
채널·모델·도구·네트워크의 실시간 오류 | 반복 401/403, DNS 지연, 도구 스키마 파싱 실패 |
openclaw doctor |
설정·의존성 점검: Node, 경로, 단일 소스 파일 | 다중 설정, 누락된 시크릿, 데몬과 다른 PATH |
openclaw channels status --probe |
채널별 프로브: 연결, 권한, 콜백 도달성 | UI는 연결인데 프로브 실패, 릴레이·확장 미부착 |
3. 다섯 단계: 침묵에서 닫을 수 있는 티켓으로
- 타임라인 고정: 업그레이드 버전, 마지막
gateway restart, 채널 토큰·Webhook 변경을 기록합니다. - 사다리 다섯 줄을 순서대로: 건너뛰기 금지. 위 층이 빨강이면 아래 설정을 만지지 않습니다.
- 드리프트 복구: doctor가 서비스·CLI 불일치를 지적하면 plist/unit을 백업한 뒤 문서대로
gateway install --force와gateway restart를 검토합니다. - 업그레이드 후 3종 세트:
gateway.auth.mode,gateway.bind, 원격gateway.remote.url;devices list/pairing listpending 확인. - 티켓 요약: 근본 원인(인증·네트워크·도구·서브에이전트), 재현, 롤백 앵커—"재시작으로 해결"만 남기지 않습니다.
4. 인용 가능한 임계와 무대응 결정 표
온콜 문서에 그대로 붙일 숫자:
- 연속 3건 무응답이고 로그에 인바운드 흔적이 없으면 모델보다 Webhook/콜백 URL과 방화벽 아웃바운드를 먼저 의심합니다.
- 업그레이드 후 15분 안에 OAuth·
401이 몰리면 모델 손대기 전에 페어링·토큰 갱신을 끝냅니다. - 원격 Gateway에서 CLI·호스트 시계 차이가 5분 넘으면 단기 서명이 깨질 수 있습니다. NTP부터 맞춥니다.
| 현상 | 우선 조치 |
|---|---|
| channels 연결이지만 probe 실패 | 릴레이 부착·브라우저 프로필 혼선을 채널별 문서로 확인합니다 |
| sessions_spawn 뒤 주 세션이 침묵 | 자동 공구 런북으로 권한·tools.profile을 대조합니다 |
| 원격 Mac에서만 재현 | launchd 사용자·작업 디렉터리·키체인·환경을 대화형 셸과 맞춥니다 |
| doctor가 openclaw.json 다중 탐지 | 단일 소스로 통합하고 CI·수동 디렉터리 이중화를 금지합니다 |
5. 원격 Mac Gateway: 추가 네 층
렌탈 Mac은 헤드리스가 많아 LaunchAgent·LaunchDaemon 경계가 더 날카롭습니다. (1) plist UserName/WorkingDirectory를 모델 캐시 경로와 맞춥니다. (2) GUI 동반 워크플로면 순수 데몬 대신 대화형 세션을 검토합니다. (3) 수면·전력은 데이터센터 Mac에도 적용됩니다. 상주 매트릭스 글의 전원 항목을 함께 보세요. (4) 노트북과 원격 박스에 이중 Gateway를 두지 말고 단일 주를 정합니다.
운영 전용 읽기 계정으로 로그·상태만 보게 하면 개발 중 환경 변수 실수를 줄입니다. SSH 점프대를 쓸 때 gateway.remote.url이 사설인지 공인 리버스프록시인지에 따라 TLS 종료·WebSocket 업그레이드가 달라지고, 버퍼가 커지면 프로브가 타임아웃으로 보일 수 있습니다.
6. FAQ
Q: 로그 없이 JSON만? 비추입니다. 증거 없는 변경은 둘째 드리프트를 낳습니다. Q: gateway install --force는 데이터 삭제? unit/plist·json 백업 후 실행하세요. 오래된 서비스 잔재를 고치는 도구지 만능은 아닙니다. Q: OpenClaw와 Ollama가 동시에 조용? 스택을 분리해 doctor와 Ollama 프로세스를 각각 검증하세요.
Q: 로컬 OK, 프로덕션 침묵? 대개 콜백 DNS·TLS 체인입니다. 개발은 터널/자체서명, 운영은 다른 도메인인데 콘솔 URL을 안 바꾼 경우가 흔합니다. Q: 프록시 끌까? WebSocket 검사가 있으면 간헐 단절이 납니다. 단일 채널·모델로 최소 재현 후 정책을 정하세요.
7. 심층: 2026년에 런북이 튜토리얼 더미보다 이기는 이유
채널 어댑터와 모델 벤더는 빠르게 올라가고 개인 메모는 며칠 만에 썩습니다. 다섯 줄과 기대 출력 스니펫이 적힌 한 장은 스트레스에서도 그대로 실행됩니다. 메이저 업그레이드마다 15분 페어링 재검증을 의식화하면 슬랙 구두 인수인계보다 퇴행을 많이 잡습니다.
버스 팩터를 낮추려면 건강할 때의 출력을 가리는 스크린샷과 함께 남기세요. 미디어+추론 공존 Mac에서는 채널 단절이 아니라 이벤트 루프 기아로 침묵이 보일 수 있습니다. doctor가 녹색이어도 큐 깊이가 이상하면 시스템 지표와 로그 타임스탬프를 맞춰 읽으세요.
도구 업그레이드는 tools.profile 샌드박스를 조용히 조여 모델은 생각 중인데 사용자 응답이 없는 형태를 만듭니다. 릴리스 노트에 프로필 델타를 남기고 운영과 같은 plist로 스테이징에서 사다리 전체를 돌린 뒤 전환하세요. 온보딩·로그는 온보딩 가이드, Mac 전제는 Apple Silicon 설치 가이드와 병행하면 빈틈이 줄어듭니다.
인시던트 템플릿에 "사다리 출력 순서 붙여넣기"를 필수로 두면 리뷰어가 SSH 없이 차이를 봅니다. 변경 요청에 openclaw status before/after가 없으면 반려하는 규칙도 초기 야간 호출을 줄이는 보험입니다.
멀티리전이면 DNS TTL, SAN, 스토리지 락이 얽힙니다. 이전 창에서 TTL을 짧게 하고 지역별 TLS 검증을 따로 돌리면 침묵 계열 가설이 빨리 수렴합니다.
8. 마무리: Gateway를 소유하되 안정 비용을 존중
(1) 한계: 멀티채널·멀티버전·멀티호스트는 설정 표면을 기하급수로 키우고 업그레이드·페어링이 가장 흔한 장애 주입입니다. (2) 원격 Mac 가치: Apple Silicon과 크리에이티브 자동화를 한 상자에 두고 7×24 Gateway와 로컬 추론 사이드카를 같이 돌리기 좋습니다. (3) MACGPU: 고정 이미지 원격 Mac으로 밀어보고 싶지만 랙은 싫다면 공개 요금·도움말에서 노드를 확인하세요. 아래 CTA도 같은 취지입니다.
큰 변경 뒤 24시간 비교 창을 남겨 이전 바이너리·컨테이너를 바로 버리지 말고, 신규 클러스터가 하루 종일 프로브와 피크를 통과할 때까지 병행하세요. 롤백을 분 단위로 줄이고 채팅 로그를 뒤지는 밤을 줄입니다.
마지막으로 그래프가 평평하고 프로브가 초록인 주를 칭찬하세요. 흥분은 데모에, 온콜은 조용해야 합니다. 사다리가 근육 기억이 되면 무대응은 신비가 아니라 절차화된 작업입니다.