1. Schmerzsplit: verbunden heißt nicht gesund
(1) Kanal online versus Gateway gesund: WebSocket oder Socket Mode kann noch handshaken, während der Gateway-Prozess blockiert, Routing bricht oder Tools leise time-outen—Nutzer sehen nur Stille. (2) CLI und launchd/systemd lesen unterschiedliche Dateien: Änderungen an openclaw.json im Terminal erreichen Daemon-Umgebung oder Arbeitsverzeichnis nicht. (3) Upgrades verschärfen Defaults: gateway.bind, gateway.auth und Remote-URL-Prüfungen werden strenger; Pairing-Status kann leeren und erneute devices list / pairing list erzwingen.
In Hobbyprojekten reicht oft ein Neustart; in Support- oder Ops-Automation wird Stille zum SLA-Vorfall. Die Leiter ins On-Call-Playbook zu schreiben ist billiger als eine ausführliche Postmortem. Leiter vor Config-Änderungen: die günstigste SRE-Disziplin für 2026.
2. Diagnoseleiter: welcher Befehl welche Schicht belegt
| Befehl | Was er beweist | Typische rote Signale |
|---|---|---|
openclaw status |
CLI-Sicht auf Modus, lokal/remote, grobe Gesundheit | Zeigt lokal, Dienst läuft remote; healthy=false ohne klaren Code |
openclaw gateway status |
Prozess, Listen-Adressen, letzter Restart-Grund | Portkollisionen, Crash-Loops, Bind-Rechte |
openclaw logs --follow (oder dokumentierter Pfad) |
Live-Fehler über Kanäle, Modelle, Tools, Netz | Wiederholte 401/403, DNS-Hänger, Schema-Parse-Fehler |
openclaw doctor |
Config- und Dependency-Selbsttest: Node, Pfade, kanonische Datei | Mehrere JSONs, fehlende Secrets, PATH ≠ Daemon |
openclaw channels status --probe |
Pro Kanal: Erreichbarkeit, Rechte, Callback | UI verbunden, Probe scheitert; Relay/Browser-Extension fehlt |
3. Fünf Schritte: von Stille zu schließbarem Ticket
- Timeline einfrieren: Upgrade-Version, letzter
gateway restart, Token/Webhook-Änderungen am Kanal. - Leiter strikt in Reihenfolge: keine Überspringe; bei roter oberer Schicht keine Feintuning darunter.
- Drift heilen: Wenn doctor Dienst ≠ CLI meldet, plist/unit sichern, dann dokumentiertes
gateway install --forceundgateway restart. - Post-Upgrade-Triple:
gateway.auth.mode,gateway.bind,gateway.remote.url;devices list/pairing listauf pending prüfen. - Ticket schreiben: Ursachenklasse (Auth, Netz, Tools, Subagent), Repro, Rollback-Anker—nicht nur "Neustart half".
4. Zitierfähige Schwellen und Stille-Matrix
Zahlen für Handbücher:
- Drei eingehende Nachrichten ohne Antwort und keine Ingress-Spuren in Logs: zuerst Webhook/Callback-URL und Egress-Firewall, nicht das Modell.
- OAuth/
401-Cluster innerhalb von 15 Minuten nach Upgrade: Pairing & Token-Refresh vor Modellknöpfen. - Remote-Gateway: Uhrdrift > 5 Minuten bricht kurzlebige Signaturen—NTP zuerst.
| Symptom | Prioritätsaktion |
|---|---|
| Kanäle verbunden, Probe rot | Relay-Anbindung und Browser-Profile je Kanaldoku prüfen |
| Stille nach sessions_spawn | Subagent-Checkliste für Rechte und tools.profile |
| Nur auf Remote-Mac reproduzierbar | launchd-User, WorkingDirectory, Keychain, Env an interaktive Shell angleichen |
| doctor meldet mehrere openclaw.json | Eine Quelle der Wahrheit; keine Doppelpfade in CI und manuell |
5. Remote-Mac-Gateway: vier Zusatzschichten
Gemietete Macs sind oft headless: LaunchAgent versus LaunchDaemon wird schärfer. (1) plist-UserName/WorkingDirectory auf Model-Cache ausrichten. (2) GUI-Sidecars nötig? Eventuell interaktive Session statt purer Daemon. (3) Schlaf & Strom gelten auch für Colo-Macs; siehe Power-Abschnitt im Betriebsleitfaden. (4) Laptop plus Remote-Box: genau eine Gateway-Primärinstanz definieren.
Separates read-only Ops-Konto für Status/Logs reduziert versehentliches Env-Driften. Über SSH-Sprung: klären, ob gateway.remote.url intern oder öffentlicher Reverse-Proxy ist—TLS-Terminierung und WebSocket unterscheiden sich; große Buffer täuschen Probe-Timeouts vor.
6. FAQ
F: Logs überspringen und JSON drehen? Nein—zweite Drift ohne Belege. F: Löscht gateway install --force Daten? Vorher unit/plist/json sichern; es fixiert veraltete Dienstinstallationen, nicht alles. F: OpenClaw und Ollama still? Stapel trennen: doctor vs. Ollama-Prozess separat prüfen.
F: Lokal ja, Produktion stumm? Häufig Callback-DNS und TLS-Kette: Dev mit Tunnel/Self-Sign, Prod mit anderer Öffentlichkeit ohne Konsolen-Update. F: Firmenproxy? WebSocket-Inspection erzeugt Flattern; minimal reproduzieren, dann Policy.
7. Deep Dive: Runbooks schlagen Tutorial-Stapel 2026
Kanaladapter und Modellanbieter liefern wöchentlich; Notizen verrotten in Tagen. Eine Seite mit fünf Befehlen und erwarteten Auszügen ist unter Stress ausführbar. 15-Minuten-Pairing-Recheck nach Major-Upgrades fängt mehr Regressionen als Slack-Folklore.
Kleine Teams senken Bus-Faktor: gesunde Output-Screenshots anhängen. Wenn Medien+Inferenz einen Mac teilen, kann Stille Event-Loop-Hunger sein—doctor bleibt grün, Warteschlangen wachsen; Metriken mit Log-Zeiten korrelieren.
Tool-Upgrades ziehen tools.profile-Sandboxes zu: Modell denkt, Nutzer sieht nichts. Profil-Diffs in Release Notes; Staging mit prod-ähnlichen plists und voller Leiter vor Cutover. Onboarding und Pfade: Onboard-Leitfaden; Fehlerbilder: Fehler-Troubleshooting.
Vorfallvorlagen sollten Leiter-Output in Reihenfolge verlangen. Changes ohne before/after openclaw status zurückweisen spart nächtliche Rotationen. Sicherheit: falsch exponierte Management-Ports werden gescannt; Loopback binden, TLS am kontrollierten Proxy terminieren.
Multi-Region: TTLs, SANs, Storage-Locks. Kurze TTLs während Migrationen, TLS-Checks pro Region—hypothesen zu "stillem" Datenpfad schneller schließen.
8. Schluss: Gateway besitzen, Stabilität respektieren
(1) Grenzen: Multi-Kanal, -Version, -Host explodieren die Konfigurationsfläche; Upgrades und Pairing sind die häufigsten Fehlinjektoren. (2) Remote-Mac: Apple Silicon, Medien- und Automations-Stacks kollokieren—ideal für 24/7-Gateway plus Sidecar-LLMs. (3) MACGPU: Wenn ein festes Remote-Mac-Image statt Heimrechenzentrum reicht, öffentliche Tarife & Hilfe prüfen; CTA unten spiegelt das.
Nach großen Sprüngen ein 24h-Vergleichsfenster: alte Binär-/Container nicht sofort löschen, bis ein voller Tag Probes und Peak validiert. Rollback in Minuten statt Chat-Archäologie.
Flache Graphen und grüne Proben feiern. Aufregung gehört Demos; Pager sollte selten sein, wenn die Leiter Muskelgedächtnis ist.