OPENCLAW_2026
SILENT_
GATEWAY_
DIAG_LADDER.

// Schmerz: Slack, Telegram oder Lark zeigen "verbunden", doch der Agent schweigt; nach einem Upgrade hängt das Gateway, Logs fluten mit Kanalfehlern, und Auth, Bind, Pairing sind nicht von CLI- versus Daemon-Config-Drift zu trennen. Ergebnis: Eine Fünfer-Diagnoseleiter fixiert die Schicht, ergänzt um Post-Upgrade-Checkliste und Remote-Mac-Gateway, damit stille Bots zu reproduzierbaren Tickets werden. Aufbau: Schmerzsplit, Leiter, Matrix, fünf Schritte, Schwellen, Remote-Mac, FAQ, Deep Dive, Schluss. Mehr: systemd/launchd-Betrieb, Onboard, Ports, Logs, sessions_spawn & tools.profile, häufige Fehler, Tarife & Knoten.

Globales Netzwerk und Automatisierungsbetrieb

1. Schmerzsplit: verbunden heißt nicht gesund

(1) Kanal online versus Gateway gesund: WebSocket oder Socket Mode kann noch handshaken, während der Gateway-Prozess blockiert, Routing bricht oder Tools leise time-outen—Nutzer sehen nur Stille. (2) CLI und launchd/systemd lesen unterschiedliche Dateien: Änderungen an openclaw.json im Terminal erreichen Daemon-Umgebung oder Arbeitsverzeichnis nicht. (3) Upgrades verschärfen Defaults: gateway.bind, gateway.auth und Remote-URL-Prüfungen werden strenger; Pairing-Status kann leeren und erneute devices list / pairing list erzwingen.

In Hobbyprojekten reicht oft ein Neustart; in Support- oder Ops-Automation wird Stille zum SLA-Vorfall. Die Leiter ins On-Call-Playbook zu schreiben ist billiger als eine ausführliche Postmortem. Leiter vor Config-Änderungen: die günstigste SRE-Disziplin für 2026.

2. Diagnoseleiter: welcher Befehl welche Schicht belegt

Befehl Was er beweist Typische rote Signale
openclaw status CLI-Sicht auf Modus, lokal/remote, grobe Gesundheit Zeigt lokal, Dienst läuft remote; healthy=false ohne klaren Code
openclaw gateway status Prozess, Listen-Adressen, letzter Restart-Grund Portkollisionen, Crash-Loops, Bind-Rechte
openclaw logs --follow (oder dokumentierter Pfad) Live-Fehler über Kanäle, Modelle, Tools, Netz Wiederholte 401/403, DNS-Hänger, Schema-Parse-Fehler
openclaw doctor Config- und Dependency-Selbsttest: Node, Pfade, kanonische Datei Mehrere JSONs, fehlende Secrets, PATH ≠ Daemon
openclaw channels status --probe Pro Kanal: Erreichbarkeit, Rechte, Callback UI verbunden, Probe scheitert; Relay/Browser-Extension fehlt

3. Fünf Schritte: von Stille zu schließbarem Ticket

  1. Timeline einfrieren: Upgrade-Version, letzter gateway restart, Token/Webhook-Änderungen am Kanal.
  2. Leiter strikt in Reihenfolge: keine Überspringe; bei roter oberer Schicht keine Feintuning darunter.
  3. Drift heilen: Wenn doctor Dienst ≠ CLI meldet, plist/unit sichern, dann dokumentiertes gateway install --force und gateway restart.
  4. Post-Upgrade-Triple: gateway.auth.mode, gateway.bind, gateway.remote.url; devices list / pairing list auf pending prüfen.
  5. Ticket schreiben: Ursachenklasse (Auth, Netz, Tools, Subagent), Repro, Rollback-Anker—nicht nur "Neustart half".
# Diagnoseleiter (Reihenfolge) # openclaw status # openclaw gateway status # openclaw logs --follow # openclaw doctor # openclaw channels status --probe

4. Zitierfähige Schwellen und Stille-Matrix

Zahlen für Handbücher:

  • Drei eingehende Nachrichten ohne Antwort und keine Ingress-Spuren in Logs: zuerst Webhook/Callback-URL und Egress-Firewall, nicht das Modell.
  • OAuth/401-Cluster innerhalb von 15 Minuten nach Upgrade: Pairing & Token-Refresh vor Modellknöpfen.
  • Remote-Gateway: Uhrdrift > 5 Minuten bricht kurzlebige Signaturen—NTP zuerst.
Symptom Prioritätsaktion
Kanäle verbunden, Probe rot Relay-Anbindung und Browser-Profile je Kanaldoku prüfen
Stille nach sessions_spawn Subagent-Checkliste für Rechte und tools.profile
Nur auf Remote-Mac reproduzierbar launchd-User, WorkingDirectory, Keychain, Env an interaktive Shell angleichen
doctor meldet mehrere openclaw.json Eine Quelle der Wahrheit; keine Doppelpfade in CI und manuell

5. Remote-Mac-Gateway: vier Zusatzschichten

Gemietete Macs sind oft headless: LaunchAgent versus LaunchDaemon wird schärfer. (1) plist-UserName/WorkingDirectory auf Model-Cache ausrichten. (2) GUI-Sidecars nötig? Eventuell interaktive Session statt purer Daemon. (3) Schlaf & Strom gelten auch für Colo-Macs; siehe Power-Abschnitt im Betriebsleitfaden. (4) Laptop plus Remote-Box: genau eine Gateway-Primärinstanz definieren.

Separates read-only Ops-Konto für Status/Logs reduziert versehentliches Env-Driften. Über SSH-Sprung: klären, ob gateway.remote.url intern oder öffentlicher Reverse-Proxy ist—TLS-Terminierung und WebSocket unterscheiden sich; große Buffer täuschen Probe-Timeouts vor.

6. FAQ

F: Logs überspringen und JSON drehen? Nein—zweite Drift ohne Belege. F: Löscht gateway install --force Daten? Vorher unit/plist/json sichern; es fixiert veraltete Dienstinstallationen, nicht alles. F: OpenClaw und Ollama still? Stapel trennen: doctor vs. Ollama-Prozess separat prüfen.

F: Lokal ja, Produktion stumm? Häufig Callback-DNS und TLS-Kette: Dev mit Tunnel/Self-Sign, Prod mit anderer Öffentlichkeit ohne Konsolen-Update. F: Firmenproxy? WebSocket-Inspection erzeugt Flattern; minimal reproduzieren, dann Policy.

7. Deep Dive: Runbooks schlagen Tutorial-Stapel 2026

Kanaladapter und Modellanbieter liefern wöchentlich; Notizen verrotten in Tagen. Eine Seite mit fünf Befehlen und erwarteten Auszügen ist unter Stress ausführbar. 15-Minuten-Pairing-Recheck nach Major-Upgrades fängt mehr Regressionen als Slack-Folklore.

Kleine Teams senken Bus-Faktor: gesunde Output-Screenshots anhängen. Wenn Medien+Inferenz einen Mac teilen, kann Stille Event-Loop-Hunger sein—doctor bleibt grün, Warteschlangen wachsen; Metriken mit Log-Zeiten korrelieren.

Tool-Upgrades ziehen tools.profile-Sandboxes zu: Modell denkt, Nutzer sieht nichts. Profil-Diffs in Release Notes; Staging mit prod-ähnlichen plists und voller Leiter vor Cutover. Onboarding und Pfade: Onboard-Leitfaden; Fehlerbilder: Fehler-Troubleshooting.

Vorfallvorlagen sollten Leiter-Output in Reihenfolge verlangen. Changes ohne before/after openclaw status zurückweisen spart nächtliche Rotationen. Sicherheit: falsch exponierte Management-Ports werden gescannt; Loopback binden, TLS am kontrollierten Proxy terminieren.

Multi-Region: TTLs, SANs, Storage-Locks. Kurze TTLs während Migrationen, TLS-Checks pro Region—hypothesen zu "stillem" Datenpfad schneller schließen.

8. Schluss: Gateway besitzen, Stabilität respektieren

(1) Grenzen: Multi-Kanal, -Version, -Host explodieren die Konfigurationsfläche; Upgrades und Pairing sind die häufigsten Fehlinjektoren. (2) Remote-Mac: Apple Silicon, Medien- und Automations-Stacks kollokieren—ideal für 24/7-Gateway plus Sidecar-LLMs. (3) MACGPU: Wenn ein festes Remote-Mac-Image statt Heimrechenzentrum reicht, öffentliche Tarife & Hilfe prüfen; CTA unten spiegelt das.

Nach großen Sprüngen ein 24h-Vergleichsfenster: alte Binär-/Container nicht sofort löschen, bis ein voller Tag Probes und Peak validiert. Rollback in Minuten statt Chat-Archäologie.

Flache Graphen und grüne Proben feiern. Aufregung gehört Demos; Pager sollte selten sein, wenn die Leiter Muskelgedächtnis ist.